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Vorwort zur zweiten Auflage 



Seit der ersten Auflage vor achtjahren haben 
sich einige fur den Evaluationsbereich sehr 
relevante Veranderungen ergeben, die wir 
jetzt durch eineentsprechendeTextanderung 
berucksichtigt haben. Die neue Situation in 
der Evaluation betrifft zum einen die Veran- 
derung des Betrachtungsschwerpunktes. War 
1987 noch eine «interne» Sichtweise domi- 
nierend, etwas die begrifflich Abgrenzung 
von «Evaluation», die Unterschiede und Ge- 
meinsamkeiten von Evaluation und Wissen- 
schaft Oder die Bemuhungen, die Vielzahl der 
unter dem Evaluationsbegriff laufenden Ar- 
beiten in ein logisch-systematisches Begriffs- 
feld zu strukturieren, so n eh men heute, in 
Gleichklang mit der zunehmenden Tendenz 
zur verstarkten Outputsteuerung in unserer 
Gesellschaft, die pragmatischen Aspekte(Was 
bringen Evaluationsstudien? Wie kann man 
sieso anlegen, daft si e den optimal en Nutzen 
erbringen?) gro&eren Raum ein. Eineandere 
wichtige Veranderung erfolgt im Zusammen- 
hang mit der inzwischen auch in Deutsch- 
land groGen Verbreitung der Zertifizierung 
nach DIN EU ISO 9000 ff/2. Diese Norm fur 
dasQualitatsmanagement in Dienstleistungs- 
organisationen erfordert, neben einer Viel- 
zahl von burokratisch-organisatorischen Re- 
gelungen, diesystematischellberprufung der 
erbrachten Qualitat auch durch bereichs- 
unabhangiges Personal und die Abhaltung 
regel maBiger Qualitatsaudits. Im Gegensatz 
zu dem Qualitatsmanagement von Produk- 
tionsunternehmen, bei denen die damit 
verbundenen MelS-, Design- und Interpreta- 
tionsfragen eher auf einer physikalisch- 
technischen Ebene liegen, bedeutet dieses 
Konzept der Qualitatskontrolle im Dienstlei- 



stungsbereich naturgemaB eine erhebliche 
Herausforderung an psych ologische bzw. so- 
zialwissenschaftliche Methodik zur Messung 
der relevanten Variablen und der sachgerech- 
ten Interpretation der Ergebnisse. Auch wenn 
die historischen Ursprunge der beiden Denk- 
richtungen «Evaluation» und «Qualitats- 
management» vollig verschieden sind, und 
sich auch sehr unterschiedliche Forderungen 
zum Bei spiel bei Untersuchungsdesigns erge- 
ben, erschien es als doch zweckmaGig, im 
Rahmen dieses Buches zumindest auf die 
Grundzuge dieses neuen und fur einschlagig 
vorgebildete Personen potentiell interessan- 
ten Arbeitsfeldes einzugehen. Diese neuen 
Entwicklungen machten groGere Veranderun- 
gen desTextes in den Kapiteln 1, 2, 3 und 5 
erforderlich. Daruber hinaus haben wir uns 
insgesamt bemuht, die Klarheit und didak- 
tische Aufbereitung der Formulierungen zu 
verbessern, zumindest einen kleinen Teil der 
zwischenzeitlich neu erschienenen Evalua- 
tions! iteratur zu berucksichtigen und die 
technische Gestaltung der Diagramme, die 
stark unter den vor acht Jahren noch ubl i- 
chen technischen Moglichkeiten derTextver- 
arbeitung gelitten hat, zu verbessern. Die Ar- 
beit an dieser Neuauflage wurde wesentlich 
unterstutzt von Frau Eva-Maria Oenning und 
Flerrn Stefan Muller. Wir danken ihnen und 
alien Kolleginnen und Kollegen sowie alien 
Studenten, die uns durch Flinweise auf 
Schwachstellen der 1. Auflage geholfen ha- 
ben. 



Bochum, im Mai 1998 FleikeThierau 

FI ein rich Wottawa 
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Vorwort zur ersten Auflage 



Es gibt viele Moglichkeiten, sich dem weiten 
Feld «Evaluation»zu nahern. UnserZugang war 
die Praxis: Die Verbesserung des Wohnungs- 
baus durch die Stadt Wien, die Festlegung der 
zweckmaBigsten Reihenfolge des Baus von 
Autobahnabschnitten, dieBewertung integrier- 
terStudiengangedurch Studierendeund Arbeit- 
geber an der GFIS Kassel, die Diskussion uber 
Gesamtschulen, die Evaluation der Weiter- 
bildungsarbeit einer groften Versicherung - fiir 
alle solche Fragen ist esselbstverstandlich, dalS 
man sich bemuht, die Realitat durch den Ein- 
satz von Forschungsmethodik und Befunden 
ausder Psychologiebzw. den Sozialwissenschaf- 
ten positiv zu beei nfl ussen . Man mu(5 dabei 
nicht unbedingt daruber nachdenken, in wel- 
ches «Kastchen» der wissenschaftlichen Syste- 
matikdasjeweilige Projekt paGt. Wichtig ist der 
Effekt, zumindest ein wenig zur Verbesserung 
realer Bed in gun gen beigetragen zu haben. Die 
Beschaftigung mit Meta- Uberlegun gen zur Eva- 
luation folgteerst danach. Ein wichtiger Anlaft 
dafur war das von den Flerren Krapp, Will und 
Wintelerin Munchen veranstaltete Symposium 
zur Evaluation in der beruflichen Aus- und Wei- 
terbildung. Es war faszinierend zu erleben, wie 
manche (gar nicht wenige) Teilnehmer mit ho- 
hem emotionalem Engagement stundenlang 
uber die Frage diskutierten, ob «Evaluation» 
nun Wissenschaft sei Oder etwasanderes- eine 
Frage, die sich in der bisher erlebten Evalua- 
tionsarbeit eigentlich niegestellt hatte. Dieses 
einschneidende Erlebnis fiihrte zur Reflexion 
der bisherigen Gewohnheiten. Nach einer Lite- 
raturdurchsicht entschlossen wir unsdann zu 
dem Versuch, den Studierenden dabei zu hel- 
fen, dieGrundlagen fiir eine praktische, profes- 
sion el I e Eval uati on stati gkei t wah ren d i h rer Au s- 



bildungsphasezu erarbeiten. Dabei wollten wir 
in Abgrenzungzu den ublichen «Lehrbuchern» 
der Evaluation unser Schwergewicht nicht auf 
methodische Oder wissenschaftstheoretische 
Aspekte legen, sondern auf jene Punkte, die 
man in der Praxis besondersbenotigt. Dazu ge- 
hort naturlich auch ein Konzept uber die wis- 
senschaftlich-theoretischen Grundlagen von 
Evaluation; ein solches hatte, ruckblickend ge- 
sehen, vielleicht den einen Oder anderen Feh- 
ler unserer praktischen Evaluationsarbeit weni- 
ger krassausfallen lassen. DieArbeit wurdevon 
vielen Kollegen gefordert, denen wir herzlich 
danken wollen. Ganz besonders verpflichtet 
sind wir den vom Verlag zu Stellungnahmen 
gebetenen Gutachtern, die uns sowohl fur das 
Ausgangskonzept alsauch bei der Realisierung 
im Detail viele wertvolle Anregungen gegeben 
haben. Der Einstieg in die geistesgeschichtli- 
chen Grundlagen wurde wesentlich durch die 
freundliche Unterstutzung von Flerrn Prof. Dr. 
Konig und Frau Dr. Engelsvon der philosophi- 
schen Fakultat an der Ruhr-Universitat Bochum 
erleichtert. Auch Flerrn Prof. Wittmann, Erlan- 
gen, Autoreinesbekannten Evaluationsbuches, 
mochten wir fur den direkten und indirekten 
Zugang zu wertvollen Detailinformationen 
danken. Zusatzlicheserhielten wir durch Kolle- 
gen und Kolleginnen auf dem im Dezemberim 
Bochum durchgefuhrten und von der DfG un- 
terstutzten Rundgesprach zum Thema Evalua- 
tion wertvolle Anregungen. Die vorliegende 
Ausarbeitung ware ohne die tatkraftige Unter- 
stutzung studentischer Mitarbeiter und Mitar- 
beiterinnen nicht moglich gewesen. Flervorzu- 
heben ist der Beitrag von Frau Martina Stangel, 
die nicht nur bei der Literaturaufarbeitung, son- 
dern auch bei der selbststandigen Erarbeitung 
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von Ubersichten, insbesondere zu Rechts- 
fragen, wertvolle Hilfe geleistet hat. Ebenso 
wollen wirden Beitragvon Frau IrisGluminski, 
die besonders fur den Bereich des Projekt- 
managmentseine groBe Unterstutzung fur uns 
war, hervorheben. Die teilweise sehr muhsa- 
men technischen Arbeiten wurden von Frau 
Andrea Ludwig und Flerrn MarkusSaxen in ko- 
operativer und sehr effizienter Weise durchge- 
fuhrt. Allen gilt unser Dank, insbesondere fur 



ein uber zwei Jahre andauerndes angenehmes 
und gutes Arbeitsklima. Unsere Leser mochten 
wir bitten, uns eine Evaluation dieses Buches 
zu ermoglichen, indem sie uns moglichst viel 
Ruckmeldung uber didaktische Schwachstel len, 
fachliche Lucken und evtl. auch Irrtumer zu- 
kommen lassen. Wir werden uns gerne bemu- 
hen, allediese Hinweise in einer spateren Auf- 
lage zu berucksichtigen. 



Bochum, im August 1989 HeikeThierau 

Heinrich Wottawa 
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1. Wissenschaft, Moral und die Grenzen 
der Planbarkeit 



1.1 Definitionsversuche von 
«Evaluation» 

Evaluation ist ein auGerordentlich vielfaltiger 
Begriff. Er umfaBt eine Menge moglicher Ver- 
haltensweisen und entzieht sich somit prinzi- 
piell einer abstrakten, die Wirklichkeit gleich- 
zeitig voll umfassenden Definition. Trotzdem 
hat sich in der Literatur, wohl vorwiegend zur 
Ausdifferenzierung des Begriffes und zu didak- 
tischen Zwecken, eine groBe Zahl von Defini- 
tionen bzw. (besser) beschreibenden Begriffser- 
lauterungen etabliert (vgl. dazu Rossi und 
Freeman (1993); Rutman (1977); Wittmann 
(1985); Wulf (1972)). Nichtzu unrecht behaup- 
ten Franklin und Trasher (1976, S. 20): 

«To say that there are as many definitons 
as there are evaluators is not to far from 
accurate. » 

Die schillernde Vi el fait der mit dem Begriff 
«Evaluation» assoziierten Vorstellungen 
reichtdabei in der Wissenschaft noch immer 
von der Auffassung, unter Evaluation sei jeg- 
licheArt der Festsetzung desWertes einer Sa- 
chezu verstehen (vgl. Scriven, 1980) bishin 
zu der Ansicht: 

«Evaluation research is the systematic 
application of social research procedures 
in assessing the conceptualization and 
design, implementation, and utility of 
social intervention programms» (Rossi & 
Freemann, 1993, S. 5). 

Zur Vereinheitlichung der gesamten Defini- 
tionsthematik und zur Systematisierung der 



begrifflichen Diskussion schlug Suchman 
(1967) die Unterscheidung von Evaluation und 
Evaluationsforschung vor. Dabei kommt den 
einzelnen Begriffen diefolgendeBedeutungzu: 

Evaluation (Bewertung): ProzeB der Beur- 
teilung des Wertes eines Produktes, Pro- 
zesses odereines Programmes, was nicht 
notwendigerweise systematische Verfah- 
ren Oder datengestutzte Beweise zur Un- 
termauerung einer Beurteilung erfordert. 

Evaluation research (Evaluationsforschung): 
explizite Verwendung wissenschaftlicher 
Forschungsmethoden und -techniken fur 
den Zweck der Durchfuhrung einer Bewer- 
tung. Evaluationsforschung betont die Mog- 
lichkeit des Beweises anstelle der reinen 
Behauptung bzgl. des Wertes und Nutzens 
einer bestimmten sozialen Aktivitat. 

Abramson (1979) nimmt spater eine verfeiner- 
te Unterscheidung in Evaluation, Programm- 
evaluation und Evaluationsforschung vor. 

Sowohl Suchman's als auch Abramson's 
Systematisierungsversuchekonnten sich jedoch 
bislang nicht durchsetzen. 

Zum Wortfeld Evaluation gehort auch eine 
Reihe verwandter Begriffe, die in verschiede- 
nen sozialen Kontexten tei I weise synonym, teil- 
weise im Sinne einer spezialisierten Form von 
Evaluation verwendet werden. So spricht man 
etwa von Erfolgskontrolle, Effizienzforschung, 
Begleitforschung, Bewertungsforschung, Wir- 
kungskontrolle, Qualitatskontrolle usw. Der 
Schwerpunkt desfolgenden Textes liegt auf der 
wissenschaftlich gestutzten Evaluation, andere 
Vorgehensweisen kommen nur in Grenzberei- 
chen zur Sprache. 
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Allgemeine Kennzeichen wissenschaftlicher 
Evaluation 

In Anbetracht der bestehenden Definitions- 
vielfalt ist es zweckmaRiger, statt einem wei- 
teren Definitionsversuch die allgemeinen 
Kennzeichen wissenschaftlicher Evaluation 
herauszuarbeiten. 

• Ein allgemeiner Konsens, der hier auch 
schon durch die Wortwurzel von «Evaluati- 
on» vorgezeichnet ist, liegt darin, daR alle 
solche Tati gkei ten etwas mit «Bewerten» zu 
tun haben. Evaluation dient als Planungs- 
und Entscheidungshilfeund hat somit etwas 
mit der Bewertung von Handlungsalter- 
nativen zu tun (vgl. Wottawa, 1986) 

• Evaluation ist ziel- und zweckorientiert. Sie 
hat primar das Ziel, praktische MaRnahmen 
zu uberprufen, zu verbessern Oder uber sie zu 
entscheiden. 

• Es besteht im wissenschaftlichen Sprachge- 
brauch ebenfallsein Konsens daruber, daft 
EvaluationsmaRnahmen dem aktuellen Stand 
wissenschaftlicher Techniken und For- 
schungsmethoden angepaRtsein sollten. 

Weitere Definitions- bzw. Beschreibungsver- 
suche hierzu geben etwa Biefang (1980), Bortz 
& Doring (1995), Bromer/Schroder (1992), 
Cronbach (1972), Hellstern & Wollmann 
(1984), Pollard (1986), Rossi & Freeman (1985, 
1993), Scriven (1972), Stufflebeam (1972), 
Weiss (1974), Will, Winteler & Krapp (1987), 
Wittmann (1985). 



Ethisch-moralische Verantwortung 

Bezieht man den Begriff der (psychologie- Oder 
sozialwissenschaftlich gestutzten) Evaluation 
auf die Bewertung von MaRnahmen zurBeein- 
flussung relevanter menschlicher Verhaltens- 
weisen, so stellt sich - unabhangig von der 
technologischen Machbarkeit dieser Zielset- 
zung- dieFragenach der ethisch-moralischen 
Bewertung. Im Gegensatz zur Grundlagenfor- 
schung, in der Erkenntnisgewinn ohne Oder 
zumindest ohne unmittelbaren Verwertungs- 
bezug nach theorieinternen Aspekten erarbei- 
tet wird, hat die Bewertung von Sachverhalten 
ja nur dann Sinn, wenn darauf Entscheidun- 



gen, und damit praktische MaRnahmen, fol- 
gen. 

Essollte naturlich fur jeden mundigen Burger 
einer demokratischen Gesellschaft (und damit 
auch fur jeden in einer solchen Gesellschaft ar- 
beitenden Wissenschaftler) selbstverstandlich 
sein, nicht nur die Funktionalitat, sondern auch 
die Moral seiner Arbeit und die Zielsetzung zu 
uberdenken. Dieser allgemeinen Forderung 
kommt wegen des unmittelbaren Praxisbezugs 
von Evaluationsprojekten in diesem Feld einebe- 
sondere Bedeutung zu. Evaluatoren verandern 
durch ihreArbeitberatend (manchmal sogarauch 
als Entscheider) die Lebensumstande anderer 
Menschen gezielt und erheben dabei den An- 
spruch, aufgrund ihrer «Wissenschaftlichkeit» 
uber Kompetenzen zu verfugen, diedem «Laien» 
fehlen; gerade diese, die Glaubwurdigkeit und 
Uberzeugungskraft erhohende wissenschaftliche 
Basis ist ja haufig der Grund fur die Einschaltung 
speziell ausgebi I deter Evaluatoren. 

Es ist manchmal nicht ganz einfach, Evalua- 
tion sproj ekte oh n e un sach gernaRe Beei n fl ussun g 
durch die Werthaltung des Evaluators durchzu- 
fuhren. Die Komplexitat von Evaluationsvor- 
haben erfordert vom Untersucher eine Vielzahl 
von Festlegungen (zum Beispiel dieAuswahl der 
erhobenen Variablen, diegenaue Definition der 
zu untersuchenden Alternativen, die interpreta- 
tive Bewertung der Ergebnisse und deren Aussa- 
gekraft), bei denen naturlich die personliche 
WerthaltungeineRollespielen kann. Diedadurch 
mogliche Verzerrung kann manchmal auf 
ethisch-moralischen Uberzeugungen beruhen 
(man denkeetwaan Projektezur Feststellung der 
Folgen von Abtreibungen Oder von Sterbehilfe), 
oft aber auch von personlichen Vorlieben des 
Evaluators (zum Beispiel Uberzeugung von der 
Richtigkeit einer bestimmten therapeutischen 
Vorgehensweise Oder einer verkehrstechnischen 
MaRnahme) abhangen. Hilfreich ist, neben der 
besonderen Sorgfalt bei der Projektplanung und 
Explikation aller durchgefuhrten Festlegungen, 
dieOffenlegung der eigenen Position durch den 
Evaluator (s. dazu auch Kap. 6). 

Trotz dieser Probleme liegt der groBe Vorteil 
empirisch-wisenschaftlich begrundeter Evaluati- 
on gerade darin, eben nicht bei den «Meinun- 
gen»von Experten stehenzubleiben, sondern auf 
der Basis von Fatten, deren Zustandekommen 
zumindest kritisch nachvollzogen werden kann, 
zu entscheiden. Anzustreben ist naturlich, daR 
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der Evaluator zwarein hoheslnteressean derun- 
tersuchten Fragehat (zum Beispiel Verbesserung 
der Pflegesituation in psych iatrischen Kliniken), 
aber den vergleichend evaluierten Alternativen 
(zum Beispiel verschiedenen konkurrierenden 
Pflegekonzepten) neutral gegenubersteht. Aller- 
dingsstellt sich auch dann eine Reihe von ethi- 
schen Fragen, in diesem Beispiel etwa nach der 
Rechtfertigung der Optimierung von psychiatri- 
schen Kliniken (wahrscheinlich fur viele unpro- 
blematisch, man denkeaberan dieheftigen Dis- 
kussionen um zum Beispiel Sterbe- Oder 
Abtreibungskliniken) Oder die Verantwortbarkeit 
der Nutzung der Untersuchungsergebnisse zur 
landesweiten Durchsetzung eines der Pflege- 
konzepte, obwohl evtl. die Aussagekraft der Da- 
ten eine so weitreichende Entscheidung nicht 
ausreichend fundiert. 

Da Evaluation in dem hier verwendeten Sinn 
im Regelfal I unterder Beteiligung wissenschaft- 
I ich vorgebildeter Personen erfolgt, wird im 1. 
Abschnitt dieses Kapitelsdas Problem von Wis- 
senschaft und moralischer Verantwortung an- 
gerissen. Flat man (personlich) zufriedenstellen- 
de Zielsetzungen seines Flandelns festgelegt, 
kann man Evaluationsvorhaben dazu benut- 
zen, die Erreichung der angestrebten Ziele zu 
optimieren. Im nachsten Abschnitt wird daher 
auf der Basis von allgemeinen Vorstellungen 
uber menschliches Flandeln gezeigt, welche 
unterden weiten Bereich der Evaluation fallen- 
den Beitrage von seiten der Wissenschaft zur 
Verbesserung der Praxissituation eingebracht 
werden konnen, was gleichzeitig eine feinere 
Strukturierung des Evaluationsbegriffes ermog- 
licht. Im letzten Abschnitt dieses Kapitels wird 
versucht, ein wenig auf die Unterschiede und 
Beziehungen zwischen «Evaluation» und «Wis- 
senschaft» einzugehen, da die Erfahrung in 
mehreren und zum Teil sehr intensiven Gespra- 
chen gezeigthat, daRdieserPunktfurvielewis- 
senschaftlich Ausgebildetenichtnurein sachli- 
ches, sondern offensichtlich auch ein stark 
emoti on sbehaftetes Problem ist. 



1.2 Wissenschaft und 
moralische Verantwortung 

Im deutschen Sprachraum durftekaum ein an- 
dererso qualifiziertsein, uberdiemoralischeVer- 



antwortung des Forschersetwasauszusagen, wie 
Karl-Friedrich von Weizsacker (zuerst Professor 
der Theoretischen Physik in StraRburg, spater 
Abteilungsleiteram Max-Planck-lnstitutfur Phy- 
sik in Gottingen, 1957 zum ordentlichen Profes- 
sor der Philosophiean der Universitat Flamburg 
ernannt). Eine kurze und ubersichtliche Stel- 
lungnahme von ihm, die gleichzeitig einige 
hochinteressante Aspekte fur den Bereich der 
Evaluation aufweist, ist in leicht gekurzter Form 
im Diagramm 1/ 1 wiedergegeben. 

Bei naherer Betrachtung fallen einige Beson- 
derheiten auf, die auch typisch fur das Verhal- 
ten vieler Evaluatoren im Praxisfeld sein durf- 
ten: 

• Die Begriffe bleiben etwas unklar, zum Bei- 
spiel «Wissenschaft» (als abstraktes System 
im Sinne eines Gegenstandsbereiches, Aus- 
sagen uberdiesen und Uberprufungsmetho- 
den? Als Synonym fur alle Forscher? Oder ist 
vielleicht das soziale System Wissenschaft 
mitden dazugehorenden Rollenerwartungen 
und Sanktionen gemeint?) Oder «produktive 
Verantwortung» (im Sinne eines Appells? 
Oder wer ist wem bei Beach tung welch er 
Sanktionen verantwortlich?) und ermogli- 
chen dadurch eine auch in den einzelnen 
Absatzen wechselnde Perspektive (Gleiches 
findet man, nur weniger elegant, in vielen 
Evaluationsberichten, wenn vorher keine 
ausreichende Explikation erfolgte; vgl. dazu 
Abschnitt 4.1.2). 

• Das Gleichnis des dreijahrigen Kindes mit 
seinen Eltern und dem Streichholz muR man 
unter dem Gesichtspunkt des Perspektiven- 
wechsels betrachten; es mag dem Wissen- 
schaftler Oder doch zumindest den wissen- 
schaftlich Ausgebildeten erbauen, sich in die 
Rolle der «Eltern» versetzt zu sehen und im 
H i nbl i ck auf Fachwissen und Verantwor- 
tungsgefuhl den Entscheidungstragern unserer 
Gesellschaft (zum Beispiel Poiitikern, Leiten- 
den Beamten, Wirtschaftsfuhrern, Jour- 
nalisten) ebenso uberlegen zu sein, wie es 
Eltern ublicherweise gegenuber einem drei- 
jahrigen Kind sind. Es ist aber zu bezweifeln, 
ob dieser Vergleich von den mit dem Kind 
identifizierten Gruppen in gleicher Weiseak- 
zeptiert werden konnte, und auch, ob er 
uberhaupt sachlich angemessen ist. Die 
damit leicht zu assoziierende Selbstuber- 
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Diagramm 1/ 1 

Uber die moralische Verantwortung des Forschers (gekurzt aus Weizsacker, 1983) 



Im Jahre 1939 hatte Otto Hahn die Uran- 
spaltung entdeckt. Den Volkern wurde die 
Atombombe 1945 sichtbar. I hr verdanken wir 
einen nun schon uber 25 Jahre dauernden 
Waffenstillstand der Weltmachte(...). 

Die 1 1 1 usion dersechziger und siebzigerjah- 
re, wir lebten schon im gesicherten Frie- 
den, schwindet rapidedahin. Ich habesienie 
geteilt. Die Frage nun lautet: Wie mul3 man 
die Naturw issenschaft treiben, wenn Natur- 
wissenschaft solche politischen Folgen hat? 

Es i st evident, dal3 es sich hier nicht nur um 
die spezielle Frage der Atombombe und uber- 
haupt nicht um das Problem des Krieges han- 
delt. Dal3 die moderne Tech nik, dieerstdurch 
die Naturw issenschaft moglich wird, die Welt 
verandert, das weil3 man spatestens seit dem 
19 . Jahrhundert (...). 

EsgibteinemoralischeEinsicht, der ich mich 
nicht habe entziehen konnen. Sie heilSt, in 
einem Satz zusammengedrangt: Die Wissen- 
schaft ist fur ihre Folgen verantwortlich. 

Der Satz sei zunachst gegen ein paar mog- 
lich e M i 13 verstan d n i sse abgesi ch ert. 

Erstens Der Satz meint nicht, die Wissen- 
schaft sei um ihrer weltverandemden Folgen 
willen betrieben worden. Aber Wissen ist 
Macht, auch wenn man es nicht um der 
Macht willen gesucht hat (...). 

Jeden falls aber ist moralische Reife einem 
Menschen nicht erreichbar, der sich fur die 
faktischen Folgen seines Handelns nicht ver- 
antwortlich weil3. Wenn dieEltern dem drei- 
jahrigen Kind zeigen, wie man ein Streich- 
holz anzundet, und bei der Ruckkehr vom 
Spaziergang ihr Haus im Flammen finden, so 
hat nicht das Kind die Streichholzer «mil3- 
braucht». Dasfallt mir immer ein, wenn ich 
die Rede von MilSbrauch der Wissenschaft 
durch dielnhaberder Macht hore. 

Zweitens: Der Wissenschaftler ist fur die Fol- 
gen seiner Erkenntnis nicht legal, sondern 
moralisch verantwortlich (...). 



Der Begriff der legalen Verantwortung ent- 
lastet uns von der unlosbaren Aufgabe, unse- 
rem Mitmenschen moralisch ins Herz zu se- 
hen. Vor dem Gesetz ist der Unternehmer, der 
Techniker, unter Umstanden auch der For- 
scher, fur diejenigen Folgen des Handelns 
verantwortlich, die in einer vom Gesetz zu 
definierenden Weisevon seiner eigen en Ent- 
scheidung abhangen. Die Wissenschaft, glo- 
bal gesehen, ist fur ihre Folgen nicht legal 
verantwortlich. Moralische Verantwortung 
hingegen betrifft in ihrem Kern Vorwurfe, die 
ich nicht anderen Menschen zu machen habe 
und die anderen nicht mir, es sei denn als 
Freunde, alsechtePadagogen, sondern ich mir 
selbst. 

Wird die Wissenschaft angegriffen, dann ste- 
he ich zu ihr. Aber als Wissenschaftler unter 
Wissenschaftlern kann ich uns von keinerder 
guten und schlechten Folgen, die wir ausge- 
lost haben, freisprechen. Der Grad mora- 
lischer Reife der sozialen Gruppe der Wissen- 
schaftler bemilSt sich nach der produktiven 
Verantwortung fur die Folgen ihrer Erkennt- 
nisse, diesie praktisch ubernimmt. 

Drittens Produktive Verantwortung der Wis- 
senschaft bedeutet also often bar nicht den 
Verzichtauf Wissenschaft. Nicht den Verzicht 
auf Wahrheitssuche; das hiel3e unserer Kultur 
dasHerz herausoperieren. Auch nicht den Ver- 
zicht auf ihre 6ffentlichkeitsform. Durren- 
matts «Physiker» ironisieren vortrefflich die 
Si nnlosigkeit dieses Weges. Geh inslrrenhaus, 
um deineErkenntnissezu verbergen, und der 
Irrenarzt wird sie dir entlocken und verwen- 
den. Die heutige Gesellschaft mit der Privati- 
sierung der Kultur ist eine Spielart dieses Ir- 
renhauses. Die Aufgabe ist schwerer und 
schoner als der Verzicht es ware. Der Wissen- 
schaftler als Staatsburger und Weltburger hat, 
mit den Gaben, die er als Person jeweils in 
sich vorfindet, an der Gestaltung der unver- 
meidlichen Gesellschafts- und Weltverande- 
rungen mitzuwirken. Diese Gaben sind ver- 
schieden. Nicht jeder Wissenschaftler hat den 
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Mut, die Einsicht, die Schlauheit und die 
Nuchternheit, ohnedieman nichterfolgreich 
pol itisch handeln kann. Aber jeder Wissen- 
schaftler hat den Verstand, die Wichtigkeit 
dieser Aufgabe sehen zu konnen. Die Han- 
delnden bedurfen stets des Chores derer, die 
mitdenken, vernehmlich kritisieren und ver- 
nehmlich zustimmen. Die Wissenschaft hat 
insbesondere die spezifische Verantwortung, 
ihreeigenen Folgen und Verstrickungen selbst 
rational zu durchdenken. Von dieser Verant- 



wortung kann siesich nicht freisprechen bei 
Strafe des U ntergan gs. 

Es ist zu furchten, daft wir Menschen dieser 
Zeit das, was wir tun mussen, erst in einer 
ungeheuren Lei den serfah rung lernen werden 
(...). 

Die Wissenschaft selbst ist nicht erwachsen: 
Ihre Denkmittel, ihre Verhaltensregeln sind 
dem Leben in der von ihr selbst erzeugten 
Welt nicht angemessen (...). 



schatzung von Wissenschaftlern gegenuber 
anderen Berufsgruppen ist eine ganz ent- 
scheidendeGrundlagefur erheblicheKomm- 
unikations- und Kooperationsprobleme bei 
Evaluationsprojekten (vgl. Abschnitt 2.2.1 
und 5.1.1). 

• Die praktische Konsequenz der Weizsacker- 
Ausfuhrungen ist letztlich fur die Wissen- 
schaftler aufterordentlich erfreulich. Sie 
konnen im Prinzip alles so tun wie bisher. 
Da sowohl der Verzicht auf Forschung als 
auch eine «Geheimwissenschaft» abgelehnt 
wird (zurecht!), verbleibt neben einigen 
kaum verhaltensrelevanten Appel len nur 
die Forderung, daft die «Wissenschaft» aus 
einer (etwas unklaren) spezifischen Ver- 
antwortung heraus ihre eigenen Folgen 
rational durchdenken soil. Dies ware eine 
zusatzliche Arbeitsaufgabe fur die Wissen- 
schaftsgemeinschaft, die heute zweifellos 
noch nicht konsensmaftig als legitimer Be- 
standteil aller Teildisziplinen gesehen wird 
(und die Anderung dieses Zustandes durfte 
das Kernziel der Ausfuhrungen von Weiz- 
sacker sein). Zusatzliche Arbeit kann aber 
nur entweder auf Kosten der bisherigen Lei- 
stungen (was eine Reduzierung des wissen- 
schaftlich-technischen Fortschrittes ware) 
erbracht werden, Oder man verwendet dazu 
zusatzliche Ressourcen (was heiftt, daft mit 
der Begrundung der moral ischen Verant- 
wortung des Forschers die Anteile der ge- 
sellschaftlichen Mittel fur diese Berufsgrup- 
pe zu steigern waren). Eigentlich eine fur 
viele wissenschaftlich Tatige sehr befriedi- 
gende Konklusion. 

Der fur den Evaluationsbereich besonders 

interessante Aspekt des letzten Diskussions- 



punktes ist, was eigentlich einen Fachwissen- 
schaftler befahigen soil, in besonderer Weise 
(man denkean den Vergleich von Eltern, Kin- 
dern, Wissenschaftlern und Entscheidungstra- 
gern) die«Fallen und Verstrickungen » der diszi- 
plinbezogenen Forschung bzw. Technologiezu 
durchdenken. Wissenschaftlicher Fortschritt ent- 
steht heute (man mag dies bedauern) nahezu 
ausschlieftlich auf der Basis hoher Spezia- 
lisierungder Forscher, und ein etwa in der Fein- 
struktur der Materie hervorragend ausgewie- 
sener Kollege verfugt im allgemeinen nicht 
einmal uber elementare Kenntnisse sozialwis- 
senschaftlicher Theorien Oder Methodik. Wo- 
her sollte er die Kompetenz nehmen, uber das 
«normale» Niveau eines gebildeten, pol itisch 
und gesellschaftlich interessierten Menschen 
(etwa eines Verwaltungsbeamten) hinausge- 
hende Maft die gesellschaftlichen Konsequen- 
zen der Entdeckung eines neuen Materie- 
teilchens abzuschatzen? Und warum sollte ein 
tierexperimentell arbeitender Psychologe, dem 
ein entscheidender Durchbruch in der Psycho- 
immunologie gelingt, die moglichen Konse- 
quenzen aus einer weiter zunehmenden Uber- 
alterung der Industriegesellschaften als Experte 
abschatzen konnen? 

Wie umstritten die moralische Bewertung von 
Fortschritten in der wissenschaftlichen Erfas- 
sung von «evaluationsrelevanten» Aspekten 
sein kann, zeigt sich zum Beispiel in den einfa- 
chen, billig gewordenen Moglichkeiten der 
Ultraschalldiagnostik, die es auch in einem 
Land wie Indien ermoglicht, das Geschlecht 
des Kindes schon in einer fruhen Phase der 
Schwangerschaft zuverlassig zu bestimmen- 
und dort zum gezielten Abbruch von Schwan- 
gerschaften mit weiblichen Foten fuhrt. Ahnli- 
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che Diskussionen finden sich auch in Europa, 
etwa im Zusammenhang mit den verbesserten 
gen tech nischen Moglichkeiten derfruhzeitigen 
Feststel lung von Behinderungen. Flier ist unab- 
hangig von der eigenen Werthaltung des Fach- 
Wissenschaftlers die Moglichkeit zu dieser Art 
von «Evaluation» an sich gesellschaftlich um- 
stritten, man kann sich aber kaum vorstellen, 
da(5 die«richtige»Vorgehensweiseein Verzicht 
aufdiesemedizinisch-di agn ostischen Moglich- 
keiten ware Oder deren Entdecker moral isch 
negativ zu bewerten waren. Nicht Erkennt- 
nisverzicht, sondern der uberlegteUmgang mit 
den dadurch gewonnen Flandlungsmbglich- 
keiten muB die Losung sein. 

Diese Uberlegung spricht dafur, daft man die 
Verantwortung der «Wissenschaft» fur das 
Durchdenken ihrer Konsequenzen eher so ver- 
steht, dalS zu diesem sozialen System auch (ver- 
starkt) Subsysteme hinzutreten sollten, die die- 
se spezialisierte Aufgabe auf entsprechendem 
Ex perten niveau ubernehmen. Da man solche 
Spezialisten in den einleitend ausgefuhrten 
Teilbereichen als «Evaluatoren» bezeichnet, 
lalSt sich die Forderung nach mehr Stellen fur 
diese Berufsgruppe offensichtlich stringent aus 
einer akzeptierten «moralischen» Forderung 
ableiten. Diese Ableitung gilt aber nur dann, 
wenn tatsachlich spezialisierte Wissenschaftler 
solche Bewertungsprobleme strukturell besser 
losen konnen als andere Berufsgruppen, was 
nur fur Teilbereiche dieser Aufgabe plausibel 
begrundet werden kann (siehedazu Abschnitt 
1.3). Da selbst bei grolStem Aufwand fur solche 
«Ethikspezialisten» nicht bei jedem Projekt 
Oder bei jeder Projektplanung ein solcher mit 
hinzugezogen werden konnte, bleibtein erheb- 
liches MalS an Eigenverantwortung bei jedem 
Wissenschaftler bzw. Evaluator selbst. 



1.3 Handlungsoptimierung 
durch Evaluation 

Der Mensch als planendes und handelndes 
Subjekt 

In weiten Bereichen der Psych ol ogi e wird aus 
sach lichen, den Gegenstandsbereich angemes- 
senen Grunden heraus der Mensch nicht als 
eine «abhangige Variable» im Sinne eines von 



aulSen gesteuerten, kausal determinierten Indi- 
viduums gesehen. Sicher gibt es auch solche 
erlernten Stimulus-Response Verhaltensketten. 
In vielen Fallen ist mensch I ichesVerhalten aber 
zielorientiert geplant. Man mochte ein be- 
stimmtes Ergebnis erreichen und wahlt unter 
oft vielen moglichen Aktionen jene aus, die 
subjektiv am gunstigsten erscheint. Der damit 
erreichte Erfolg, der benotigte Aufwand und 
evtl. aufgetretene unbeabsichtigte Nebenwir- 
kungen werden ruckgemeldet, subjektiv bewer- 
tet und fuhren gegeben entails zu einer Opti- 
mierung des Verhaltens. Dies gilt sowohl fur 
die standige Kontrolle des Verhaltens und sei- 
ner Ergebnisse mit der Moglichkeit, die Pro- 
blemlosung sofort zu verbessern (vgl. «forma- 
tive» Evaluation im Diagramm 11/ 2) als auch fur 
eine nachtragliche Bewertung des Vorgehens 
(«summative» Evaluation) als Grundlage eines 
gunstigeren Verhaltens in einer spater auftre- 
tenden, vergleichbaren Situation. In diesem 
Sinne reagiert der Mensch (in manchen Situa- 
tionen) nicht, sondern er handelt. 



Flandlungsmodell 

Ein einfaches Flandlungsmodell ist in Diagramm 
1/2 dargestellt (vgl. Fleckhausen, (1989); Lan- 
termann, (1980), Werbik, 1978). Betrachtet 
man nur so einen einfachen Fall, ist das 
Optimierungsproblem relativ leicht zu Ibsen - 
aus der Menge der zur Verfugung stehenden 
Verhaltensweisen ist jeneauszuwahlen, die bei 
geringsten «Kosten»(u.a. im Sinnevon Neben- 
wirkungen) das gewunschte Ziel in besonders 
effektiver Weise zu erreichen gestattet. Leider 
ist die faktische Situation um vieles komplizier- 
ter. 



Flandlungsoptimierung in komplexen 
Situationen 

Einfache Ubersichten wie im Diagramm 1/2 ver- 
nachlassigen vieles, wasfurmenschlichesFlan- 
deln in realen Situationen bestimmend ist. 
Einerseits sind die einzelnen Ziele in uberge- 
ordnete Zielhierarchien eingebettet, anderer- 
seits schafft die Zi el errei chung (und die dazu 
eingeschlagenen Wege) selbst Bedingungen, die 
das System ihrerseits wiederum beeinflussen. 
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Die Einbettung jeder Teilzielerreichung inner- 
halb eines Ursache-Wirkungssystems hat zur 
Folge, dalS die Bewertung der Zi el errei chung 
(bzw. der dafur eingesetzten MaGnahmen) 
nicht am jeweiligen Teilziel allein, sondern nur 
innerhalb des Gesamtbeziehungsnetzes erfol- 
gen kann. Diese Vernetzung von Kausalbezie- 
hungen laftt eine «endgultige» Bewertung ei- 
ner MaGnahme erst dan n zu, wenn das System, 
auf das diese Maftnahme einwirkt, nicht mehr 
besteht. Konzentriert man sich etwa auf einen 
Einzelmenschen, so kann man erst nach des- 
sen Todefeststellen, welche(und wiezu bewer- 



tende) Folgen eine bestimmte MaGnahme tat- 
sachlich auf sein ganzes Leben bezogen hatte. 
Fur die Gesamtgesellschaft muftte man sogar 
bis zum Aussterben der Menschheit auf eine 
«endgultige» Bewertung warten (siehedazu das 
«UltimateCriterion», Thorndike, 1949). Schon 
aus diesem Grund ist es unmoglich, mit empi- 
rischer Fundierung letztendlich gultig den Ef- 
fekt einer MaGnahmezu bewerten. Durch die 
prinzipielle Offenheit des «Systems» (sei esder 
Einzelmensch mit den vielen nicht vorhersag- 
baren Einflussen, denen er ausgesetzt ist, sei es 
die Gesamtgesellschaft mit den nicht uberblick- 



Diagramm 1/ 2 

Strukturdes Flandlungsablaufes 



Situation 

I 

Person 

I 

ZIELE 




Bewertung der Handlungsalternativen z.B. unterdem Kosten - Nutzen Aspekt! 



Handlungsausfuhrung — 



1 

Ausfuhrungskontrolle < — 

1 

Ergebnis 

I 

Folgen und Bewertung der Folgen 



Anmerkung: Fur weiterfuhrende Literatur vgl. Werbik, 1978; Lantermann, 1980 
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baren wechselseitigen Verbindungen) ist es 
auch nicht moglich, mittels Optimierung von 
Zwischenschritten sequentiell ein optimales 
Gesamtergebnis zu erreichen. Man vergleiche 
dazu etwadasSchachspiel: Das Erreichen eines 
an sich positivzu bewertenden Zwischenzieles 
in Form eines bestimmten Figurengewinnsoder 
einer bestimmten Position kann, bei entspre- 
chend nicht vorhergesehener Reaktion des 
Spiel partners, sich insgesamt gesehen alsnega- 
tiv spielentscheidend auswirken. 

Die Konsequenz ausdieser nicht vermeidbaren 
Tatsache ist, daft man «Spielregeln» fur die 
Bewertung von Zwischenzielen bzw. Zwischen- 
ergebnissen benotigt, in gleicher Weise, wie 
beim Schachspielen durch personliche Erfah- 
rung, Lehrbucher Oder Computerprogramme 
dieSpielsituationen vorlaufig bewertet werden, 
ohneden Anspruch einer endgultigen Prognose 
des Spielausgangs zu erheben. Vieles, wenn 
auch nicht alles von dem, was man als «mo- 
ralisch angemessen»bezeichnet, durftesich auf 
solche Bewertungen von Zwischenstufen zu- 
ruckfuhren lassen. 



Konsequenzen fur die Evaluation 

FurdieArbeitan Evaluationsfragestellungen er- 
geben sich ausdiesen Uberlegungen zwei Kon- 
sequenzen: 

• Kein Evaluationsprojekt kann die «endgulti- 
gen» Folgen einer Maftnahme bewerten; es 
ist immer notwendig, Zwischenziele festzu- 
legen und die Optimierung des Verhaltens 
an einem solchen, letztlich willkurlich ge- 
setzten Zwischen stadium auszurichten 

• Mit naturwissenschaftlichen Methoden al- 
lein laftt sich das Bewertungsproblem nicht 
losen; zwar vermag der Wissenschaftler auf- 
grund seinerTheorie- und Methodenkompe- 
tenz in vielen Fallen bessere Aussagen uber 
die Zusammenhangsstruktur innerhalb des 
«Netzwerkes» der Kausalketten zu machen 
und damit die Zeitperspektive gegenuber 
dem Laien ein wenignach vornezu verschie- 
ben, vielleicht auch umfassender darzustel- 
len. Da sich aber das Bewertungsproblem ei- 
ner «guten» Oder «sch lechten» Zwischenstufe 
ausden genannte Grunden nicht auf analy- 



sierbare Kausalketten zuruckfuhren laftt, ist 
eine zusatzliche, wertende Festlegung erfor- 
derlich. 



Rolle des Auftraggebers fur die Evaluation 

Die Konsequenz fur Evaluatoren ist, daft sie in 
ihrer Rolle als wissenschaftliche Experten viele 
wichtige Fragen in Evaluationsprojekten nicht 
in eigener Verantwortung entscheiden konnen 
(bzw. sollten). Siesind auf die Kooperation mit 
einer im folgenden als «Auftraggeber» bezeich- 
neten Instanz angewiesen, diesowohl die Zeit- 
perspektive festlegt als auch bestimmt, welche 
Folgen wiezu bewerten sind. Esbesteht natur- 
lich einegrofteVersuchung, vor allem bei ent- 
sprechend hoher Einschatzung der eigenen 
Kompetenz (vgl. das Kind/Eltern-Gleichnis im 
Diagramm 1/ 1), in Evaluationsprojekten auch 
diese Funktionen zu ubernehmen. Eine solche 
Kompetenzanmaftung beinhaltet aber die 
Gefahr, daft ein wissenschaftlich vergleichbar 
kompetenter Kollege mit der gleichen inne- 
ren Uberzeugung eine andere Bewertung 
vornimmt, dienaturlich ebensowenig fach wis- 
senschaftlich abgestutzt werden kann wie die 
eigene Position. Die darauf folgenden Ausein- 
andersetzungen erwecken leicht negative Ein- 
drucke uber wissenschaftliche Evaluation (zum 
Beispiel die Unterstellung der «Kaufbarkeit» 
von Wissenschaftlern, explizit bei Frister, 1972; 
Oder die Vermutung auch fachwissenschaft- 
I i ch er I n kom peten z gan zer Fach berei ch e; Kri ti k 
an den Kosten der Evaluationsprojekte, da diese 
ja doch nichts «Eindeutiges» erbracht haben 
u.a.). 



Evaluation als unverzichtbare Form 
wissenschaftsgestiitzten Lernens 

Es warefalsch, vor dem Flintergrund der nicht 
I osbaren Probl emati k des «U I ti mate C ri teri on » 
und die notwendigen Setzungen durch den 
«Auftraggeber» den Beitrag systematised er 
Ruckmeldung bzw. Evaluation zur Verhaltens- 
optimierung gering einzuschatzen. Es gibt 
letztlich keine andere Moglichkeit des «Ler- 
nens», als gestutzt auf (eigener Oder uber- 
mittelter) Erfahrung sein Verhalten an die 
konkrete Situation anzupassen undjeneMaft- 
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nahme auszuwahlen, die am ehesten erfolg- 
versprechend ist. Selbstverstandlich verarbei- 
tet dann auch jeder Mensch die damit erziel- 
ten (und bewerteten) Resultate zu einer 
Verbesserung seiner Handlungssteuerung, und 
dalS dieser ProzelS faktisch funktionieren mulS, 
zeigt die enorme Steigerung der Fahigkeit des 
Menschen, seine Lebensbedingungen gemalS 
seinen Vorstellungen zu gestalten. Vermutlich 
wurde dieser ProzelS durch das zumindest 
beim Menschen nachgewiesene Motiv einer 
«Kontrollkompetenz» (vgl. dazu Langer, 1983; 
Osnabrugge et al. 1985) wesentlich gefordert. 
Werden die zu bewertenden Verhaltenswei- 
sen, Programme Oder InterventionsmalSnah- 
men in ihrer Gestaltung und ihren vielfalti- 
gen Auswirkungen so komplex, dalS der 
Einzelne ohne entsprechende wissenschafts- 
gestutzte Erhebungen nicht mehr die Zusam- 
menhange zu erkennen vermag (und dies 
trifft sicher fur viele Steuerungs- und Gestal- 
tungsmalSnahmen in modernen Gesellschaf- 
ten zu) mulS die Ruckmeldung uber entspre- 
chende Evaluationsprojekte gesichert werden. 



Ubelminimierung statt Idealldsung 

Bei oberflachlicher Betrachtung konnte man 
meinen, dalS zwischen der Unmoglichkeit ei- 
ner idealen, ohne letztlich willkurliche Set- 
zungen von Ziel-Zeitpunkten und Teilbewer- 
tungen auskommenden Evaluation einerseits 
und dem Nutzen, ja der Unverzichtbarkeit sol- 
cher Projekte fur moderne Gesellschaften an- 
dererseits ein Widerspruch bestunde. Dieser 
lalSt sich aber dadurch losen, dalS man auf ab- 
solute BewertungsmalSstabe, die Suche nach 
Wahrheiten Oder allgemein zwingend verbind- 
I iche Problemlosungsvorsch lage verzichtet. Die 
Evaluation kann dazu dienen, innerhalb eines 
wissenschaftsexternen, vorlaufigen und in ge- 
wissen Grenzen willkurlichen Rahmens die 
Wahrscheinlichkeit fur die Auswahl einer be- 
sonders guten Verhaltensalternative zu erho- 
hen und analog dazu die Wahl einer besonders 
schlechten Alternative zu verringern. Eineletzt- 
lich absolut sichere Aussage, wie sie eigentlich 
nur in den Formal wissenschaften und man- 
chen anderen Geisteswissenschaften moglich 
ist, ist bei Evaluationsprojekten keinesinnvolle 
Zielsetzung. Daraus folgt zwingend, dalS man 



bei alien Evaluationsprojekten immer Kritik- 
punkte finden wird, da die ideale Konzeption 
eines solchen Vorhabens selbst bei unbegrenz- 
ten Ressourcen aufgrund der geschilderten Pro- 
blem lage niemals real i si erbar ist und einschran- 
kende Setzungen durch den Verantwortlichen 
eines solchen Projekteserfordert. Essollten da- 
her nur jene Personen in diesem Feld berufsta- 
tig werden, diemit der «Ubelminimierung»an- 
statt «ldealldsung» leben konnen und auch mit 
den nicht selten auftretenden Konflikten mit 
Kollegen bei entsprechend anderer Wertsetzung 
umgehen konnen (vgl. dazu die Abschnitte 
2.1.1, 6.1.2 und 6.1.3). Evaluationsvorhaben 
rechtfertigen sich nicht aufgrund des Findens 
von absoluten Wahrheiten, sondern aufgrund 
ihres Beitrages zu einem En tsch ei d u n gsp rozeB 
bzgl. der Auswahl von Verhaltensalternativen, 
der in jedem Fall ein Ergebnis (in Form der 
Auswahl einer bestimmten Verhaltensweise) er- 
bringen mu IS. Selbst relativ gering verbesserte 
Prognosequoten uber die Gute der einzelnen 
Alternativen sind bei tatsachlich bestehendem 
Entscheidungszwang ein Fortschritt. 



Vorschau auf die folgenden Kapitel 

Im Sinne der in diesem Abschnitt besonders 
betonten Praxisbezogenheit der Evaluations- 
arbeit werden in den folgenden Kapiteln die 
grundlagenwissenschaftlichen Aspekte, die fur 
die Projektarbeit von hoher Bedeutung sind, 
nur relativ kurz aufgenommen und zur Vertie- 
fung auf die vorhandene Literatur verwiesen. 
Statt dessen wird: 

• derBereich «Evaluation»ausfuhrlicherstruk- 
turiert (Kap. 2) 

• Anwendungsaspekte und Fallstudien disku- 
tiert (Kap. 3) 

• eineUbersichtuberdiewichtigsten Techniken 
zur rationalen Erfassung von Zielsetzung, Pla- 
nung und Durchfuhrung von Evaluations- 
studien gegeben (Kap. 4, 5 und 6) 

• ei n e su bj ekti v gefarbte al I gemei n e Bewertung 
von wissenschaftsgestutzter Evaluation und 
den bisher gewonnenen Erfahrungen im 7. 
Kapitel dargestellt 

Diese Ausfuhrungen sollen insgesamt einen 
Rahmen bieten, innerhalb dessen die spezifi- 
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schen substanzwissenschaftlichen Befunde 
und methodischen Instrumente, deren Ver- 
mittlung ja einen grolSen Teil der Studienan- 
gebote ausmacht, fur die spezifischen Bedin- 
gungen der Arbeit in Evaluationsprojekten 
nutzbar gemacht werden konnen. 

Wenn Evaluation an sich nichtein Bestand- 
teil von Wissenschaft ist, kann eigentlich auch 



ein Lehrbuch zu diesem Thema kein rein «wis- 
senschaftliches»Werksein. Eswird dahergebe- 
ten, den teilweise «wissenschaftsfernen» Aus- 
fuhrungen in Anbetracht der besonderen 
Bedingungen des Bereiches Evaluation Ver- 
stan d n i s en tgegen zu bri n gen . 



Ubersicht Kapitel 1: 

Wissenschaft, Moral und die Grenzen der Planbarkeit 



Definitionsversuche von Evaluation 
Evaluation 

VerwandteBegriffe : 
Erfolgskontrolle 
Qualitatskontrolle 
Controlling 



Optimierung von Handlungsmodellen durch Evaluation 
unverzichtbare Form wissenschaftsgestutzten Lernens 

Ziel der Evaluation 

Ubelminimierungstatt unreal istischer I deallosung 



jegliche Art der Festsetzung systematische Anwendung sozial- 

desWerteseinerSache wissenschaftlicher Methoden ... 



AllgemeineKennzeichen wissenschaftlicher Evaluation 

• dient der Planungs- und Entscheidungshilfe 

• ist ziel- und zweckorientiert 

• soil dem aktuellen Stand wissenschaftlicher Forschung angepalSt sein 

Wissenschaft und die moralische Verantwortung der Forscher 
fur die Konsequenzen ihrer Forschung 

• Stellungnahme von WEIZSACKER 

• Forderung nach Evaluation 

• Aufgaben und Grenzen der Evaluation 
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2. Grundlagen sozialwissenschaftlich 
gestutzter Evaluation 



Wenn Evaluation nicht ausschl ieBI ich wegen des 
wissenschaftlichen Interesses, alsFolgefreierund 
selbstbestimmter Forschung erfolgt (auf die Pro- 
bleme und die Seltenheit einer solchen Evalua- 
tionsgrundlage wurde im Abschnitt 1.3 einge- 
gangen) wird sienurdann stattfinden, wenn der 
«Auftraggeber» einen Bedarf nach Evaluations- 
projekten hat. Diessetzt voraus, daR es: 

• Zielegibt, diemit psycho I ogischen bzw. sozi- 
alwissenschaftlichen Evaluationsvorhaben 
erreicht werden konnen (2.1) 

• Beitrage der Wissenschaft fur solche Frage- 
stel I u n gen ausderSichtdes Auftraggebers ei - 
nen Nutzen haben, der die erwarteten «Ko- 
sten» ubersteigt (2.2). 

• Die Verfugbarkeit kompetenter Evaluatoren 
und anderer Ressourcen das Evaluations- 
projekt uberhaupt durchfuhrbar macht (2.3). 

Auf diese3 Gesichtspunkte wird in den folgen- 
den Abschnitten dieses Kapitels naher einge- 
gangen. Fur ausfuhrlichere Diskussionen bzw. 
andere Auffassungen vgl. Flellstern und Woll- 
man, 1984; Rossi etal., 1985; Weiss, 1974; Witt- 
mann, 1985. 



2.1 Zielsetzungen bei 
Evaluationsvorhaben 

Fur eine Analyse der Zielsetzungen bei 
Evaluationsprojekten ist zu beach ten, daR erst 
dann kon kreteZi el e an gestrebt werden konnen, 
wenn der Evaluationsgedankeaufgrund derhi- 
storischen und psychologischen Bedingungen 
uberhaupt akzeptabel ist (2.2.1). Auf dieser 
Grundlage konnen erst entsprechende Vorha- 



ben geplant werden. Daher ist es zweckmaRig, 
zwischen den typischen Nutzenerwartungen 
potentieller Auftraggeber (2.1.2) und der De- 
tail -Zi el setzung innerhalb konkreter Projektezu 
unterscheiden. 



2.1.1 Grundlagen fur die Akzeptanz 
von Evaluation 

Evaluationsvorhaben konnen erst dann einen 
sinn vo lien Beitrag zur Zielerrei chung bzw. Pro- 
blemlbsung bieten, wenn dienotwendigen psy- 
chologischen Bedingungen fureineempirische, 
erf ah ru n gsgestutzte Vo rgeh en swei se gesch affen 
sind. Sie konnen auch nicht unabhangig vom 
erreichten historischen Entwicklungsstand ei- 
ner Gesel I sch aft gesehen werden. 



Psychologische Voraussetzungen 

Die Grundlage von Evaluation ist die Akzep- 
tanz der Veranderbarkeit und Veranderungs- 
bedurftigkeit relevanter gesel Ischaftlicher Ein- 
richtungen, MaRnahmen oderTechniken , was 
eineerhebliche Loslosung von Gewohnheiten, 
von Autoritaten und von den durch simple 
Wiederholung von Verhalten ausgelosten Lern- 
effekten erfordert. Eine entsprechende Denk- 
wei se i st kei n eswegs sel bstverstan d I i ch . Waru m 
sollteein Vertreter einer therapeutischen Rich- 
tung, der jahrelang und (subjektiv) erfolgreich 
eine bestimmteTechnik nutzte, diese plotzlich 
in Frage stellen? Ein «starker» Vorstand eines 
Unternehmens die Optimalitat seines «erfolg- 
reichen» Fuhrungsverhaltens anzweifeln (und 
evaluieren)? Ein Universitatsprofessor seine 
Vorlesung, diedoch schon seit zwanzig Jahren 
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ausgereift ist und von hunderten Studenten er- 
folgreich besucht wurde, uberdenken? Ein 
Bildungsanbieter sich die Frage stellen, ob ein 
dort tatiger Dozent wirklich noch der beste ist, 
Oder vielleicht doch durch einen mitmehr Ak- 
zeptanz bei den Kursteilnehmern ausgetauscht 
werden sollte, obwohl man ihn schon seit vie- 
lenjahren personlich kennt? 

Der fur evaluationsgestutzte Optimierung 
notige affektive Entwicklungsstand der Betei- 
ligten muB gelegentlich erst geschaffen werden, 
etwa durch Personal- Oder Organ isati on sen t- 
wicklungsmaBnahmen in Wirtschaft und Ver- 
waltungen Oder massiveAufklarung der Offent- 
lichkeit uber die Nachteile lang eingefuhrter 
Meehan ismen, zum Beispiel im Gesundheits- 
oder Sozialwesen, falls in diesen Bereichen In- 
novationen an gestrebt werden. 

EineweiterewichtigepsychologischeVoraus- 
setzung ist die Bereitschaft, sich zu Zwecken 
der Verbesserung des bestehenden Verhaltens 
(«Hoffnung auf Erfolg») dem Risiko des Schei- 
terns («Furcht vor M iBerfolg») auszusetzen. Je- 
der in der Vergangenheit relativ erfolgreiche 
Losungsweg (Erzeugung von Nahrungsmitteln, 
Disposition von Gutern, Regelungen dessozia- 
len Umganges miteinander) hat sich in gewis- 
sem Sinne «bewahrt» und ist hinsichtlich sei- 
ner Nebenaspekte(Aufwendungen, Kosten und 
dgl.) annahernd durchschaubar. Er wird daher 
nach den Lerngesetzen «Lernen am Erfolg», 
«Lernen durch Wiederholung»und «Lernen am 
Modell» (der Vorganger, Kollegen und andere, 
die es ja ebenso machen bzw. machten) ver- 
starkt (zu Lerngesetze siehe Bolles, 1975; 
H i I gard und Bower, 1981; Mayer, 1979; Torpy, 
1966, sozial-kognitive Lerntheorie, Bandura 
1986). Das Beibehalten kommt auch der Ten- 
denz zur Vermeidung von Verantwortung sehr 
entgegen, da ubliche Verhaltensweisen nicht 
nurhaufig einen (relativen) Erfolg bringen, son- 
dern auch im Falle des M iRerfolges eine exter- 
nal e Attribuierung nahelegen - wenn ich alles 
nach den herrschenden Vorstellungen «richtig» 
gemacht habe, ist der MiBerfolg auf auBere 
Umstande und nicht auf meine Entscheidung 
zuruckzufuhren (zu den motivationspsycho- 
logischen und attributionstheoretischen Uber- 
legungen sieheetwa Fleckhausen, 1989; FI eider, 
1958; Meyer und Schmalt, 1984; Weiner, 1984). 
Zusatzlich zur theoretischen Erkenntnis der 
Veranderbarkeit muB also die Erwartung des Er- 



folges, dasheiBtderGlaubean einen vom Men- 
schen rational beeinfluBbaren Fortschritt, tre- 
ten. 

Aber selbst Fortschrittserwartung wird in der 
Regel nurdann zu Innovationen fuhren, wenn 
sich fur den Entscheidungstrager dadurch ein 
das Versagensrisiko wettmachender Nutzen er- 
geben kann. Ein sch ones Beispiel furdieFolgen 
des Fehlens einer solchen Nutzen erwartung ist 
der Vergleich der Entdeckungsreisen im 15. 
Jahrhundert zwischen Europaern und Chine- 
sen. Beide Kulturen erforschten etwa zur glei- 
chen Zeit die Seewege nach Indien und Afrika, 
China mit in groBem Stil staatlich unterstutzen 
Forschungsexpeditionen unter militarischer 
Fuhrung, die Europaer anfanglich im wesent- 
lich kleineren Rahmen. Fur die Chinesen war, 
neben dem allgemeinen wissenschaftlichen 
Erkenntnisdrang, ein praktischer Nutzen aus 
neuen, auf diese Ergebnisse gestutzten Verhal- 
tensweisen nicht erkennbar (ausreichende Ver- 
sorgung mit alien in den neu «entdeckten»Ge- 
bieten verfugbaren wichtigen Flandelsgutern 
im eigenen Flerrschaftsbereich war gegeben), 
wahrenddem fur die Europaer als Folge der po- 
litischen Veranderungen durch dasErstarken ei- 
nes feindlich eingestellten osmanischen Rei- 
ches und den Niedergang von Byzanz die 
bisherigen Flandelswegeuber Land verlorengin- 
gen bzw. aufgrund hoher Abgaben nicht mehr 
rentabel waren (siehe ausfuhrlicher bei Atiya, 
1964). DieFolgen derdarauf eingeleiteten, und 
naturlich in keiner Weise vorher sozialwissen- 
schaftlich evaluierten Entwicklungen sind be- 
kannt und zeigen gleichzeitig, wie verschieden 
die«Nutzen»-Bewertung bei wechselndem Zeit- 
horizont (vgl. dazu Abschnitt 1.2) sein kann. 

EinedrittepsychologischeGrundlage, ohnedie 
sinnvolle Evaluation nicht denkbar ist, ist die 
Bereitschaft der Entscheidungstrager zur Akzep- 
tanz von Fakten. Gerade wenn Neuerungen 
von einer bestimmten Sollvorstellung uber den 
Menschen ausgehen, wenn siedasZiel haben, 
die Verhaltnisse nicht so zu lassen wiesiesind, 
sondern einen «besseren» Zustand anstreben, 
sind die Innovatoren empirisch fundierten Ar- 
gumenten strukturell wenig zuganglich, da sie 
ja gerade die derzeit aufzeigbare Faktenlage ver- 
andern wollen. AlsKonsequenzdavon wirdge- 
sellschaftlich relevante sozialwissenschafliche 



Forschung immer dann unterdruckt, wenn 
die Ergebnisse Schwachen der herrschenden 
Ideologie aufzeigen konnten (ein Beispiel aus 
jungster Zeit dafur ist die Bewertung psycholo- 
gischer Diagnostik und damit zusammenhan- 
gender Personlichkeitsforschung unter Hitler, 
Stalin, radikalen Teilen der 68er Bewegung und 
Teilen derextremen Rechten in den USA, siehe 
dazu etwa Wottawa und Hossiep, 1987, S. 97 ff„ 
ausfuhrlicher bei Drenth, 1969). 

Es ist aber keineswegs nur einesolche massi- 
ve, mit gesellschaftlicher Macht verbundene 
Unterdruckung von Fakten, die empirisch-wis- 
senschaftliche Evaluationen in bestimmten Be- 
reichen unmoglich macht. Die praktische Er- 
fahrung mit Evaluationsprojekten zeigt, daR 
auch in kleinerem und starker konkretisiertem 
Rahmen immer wieder Argumente zu horen 
sind, dieauf zumindest teilweisefehlende Aus- 
pragung der diskutierten psychologischen 
Grundlagen hinweisen: Entscheidungstrager, 
die «unerwunschte» Berichte ablegen statt 
nutzen, Geldgeber (auch offentliche), diezu 
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bestimmten Zeiten bestimmte Evaluations- 
projekte nicht finanzieren, «Experten» aller 
Richtungen (Therapeuten, Padagogen, Fuh- 
rungskrafte, Professoren ...) dietrotz der Be- 
fundlage ihr Verhalten anderungsresistent 
beibehalten, Studenten, die entgegen den 
aufgezeigten Fakten tradierte Vorurteile ge- 
genuber einem bestimmten Dozenten weiter 
pflegen - allesolche Beispielezeigen, daR von 
einer zwingenden Akzeptanz von Fakten 
auch heute keineswegs ausgegangen werden 
kann. 

Die anspruchsvollen psychologischen Erfor- 
dernissefur die Akzeptanz sozialwissenschaft- 
licher Evaluationen machen es verstandlich, 
daR die heute relativ gunstige Situation erst 
im Laufeeines langen Entwicklungsprozesses 
mit teilweise sehr schmerzhaften Rucksch la- 
gen erreicht wurde. Es ist sicher noch viel 
Aufklarungsarbeit notig, um die Akzeptanz 
dieses Optimierungsinstrumentes dauerhaft 
zu sichern. 



Diagramm 11/ 1 

Grobe Ubersicht uber die geschichtliche Entwicklung von «Evaluation» 



Urgesdlschaft 

Erste Evaluationsversuche technischer Art 
durch die Berucksichtigung empirisch erwor- 
bener Kenntnisse uber Materialeigenschaften 
bei der Herstellung von Geratschaften und 
Waffen . 

Spater Umsetzung von erkannten biologi- 
schen GesetzmaRigkeiten in Ackerbau und 
Viehzucht (z. B.: Mannliche Schafe bekom- 
men keinejungeund geben keineMilch; ent- 
fernt man aber alle «unnutzen» Tiere dieser 
Art aus der Herde, entfallt bald die gesamte 
Fleisch- und Milchproduktion). Erste gesell- 
schaftliche Arbeitsteilung (Ackerbau, Vieh- 
zuchter) uberlagert aufgrund nutzenorien- 
tierter (bewerteter) Erfahrungen die fruhere 
Arbeitsteilung nach Alter und Geschlecht. 



Griechisch-romischeAntike 

Bereits Aristotelesfordert dieempirische Nut- 
zenbestimmung zur Bewertung gesellschaft- 



lich relevanter MaRnahmen, insbesonderezur 
Uberprufung von Staatsformen - damit wird 
die Gestaltung der Gesellschaft zu einer auf 
Evaluationsbasis aufbauenden Optimierungs- 
aufgabe. Zunachst bleibt es aber bei der 
theoretischen Forderung ohne praktische 
Konsequenzen. Bei den Romern erfahrungs- 
bedingter Wechsel zwischen Demokratie und 
(in Kri sen zeiten) befristeter Diktatur, was als 
Anwendung dieser Optimierungsidee gedeu- 
tet werden kan n . 



Europaisch-lateinisches M ittelalter 

DieNutzen-Uberlegungen aus der Antikeblei- 
ben erhalten, aber ohne Umsetzung solcher 
theoretischer Forderungen. Die umfasendste 
weiterfuhrende Systematisierung des aristote- 
lischen Verstandnisses von Nutzen erfolgt 
durch Thomas von Aquin. Generell gilt aber, 
daR im M ittelalter die Handlungsorientierung 
auf einem religios fundierten Gut/Bose-Prin- 
zip beruht und die empirische Uberprufung 
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desNutzen seiner Sacheoder MaRnahmeweit 
h inter diespekulative, religi os-moral ische Be- 
wertung zurucktritt. Dies bedingt auch eine 
erhebliche Innovationsschwacheund dieUn- 
terbrechung der in der Antike begonnenen 
empirischen Wissenschaftsansatze. 



Renaissance 

Weitreichende geistige Umwalzungen. Die 
Unterbrechung der Handelswege nach Asien 
durch dieOsmanen bedingt hohes Interesse 
an neuen geograph ischen Entdeckungen 
(Vasco da Gama, Columbus); eine Vielzahl 
neuer wissenschaftlicher Erkenntnisse wie 
geozentrisches Weltbild (Kopernikus, Galilei), 
in der Mechanik (Leonardo da Vinci), Medi- 
zin, Bergbau, Botanikund Zoologiepragen die 
Zeit. Der starke Aufschwung der empirischen 
Wissenschaft (die «Erfahrung» wird zuneh- 
mend uber Schriften und uberlieferte Tradi- 
tion gestellt) geht mit Innovations- und 
Evaluationsversuchen in den verschiedensten 
Gebieten einher. 



Das Manufakturzeitalter 

Der enorme Aufschwung der N aturwissenschaf- 
ten im 17. Jahrhundert bringt eine gezielt 
n utzen ori en ti erte Veran deru n g der tech n i sch en 
und okonomischen Entwicklung mit sich. Die 
Festigung und Institutionalisierung der empiri- 
schen Forschung steht im engen Zusammen- 
hang mit der europaischen Aufklarung. 

In der Philosophie breitet sich mit dem Utili- 
tarismus eine Denkweise aus, die versucht, 
allgemein verbindliche Normen mit wis- 
sen sch aftli chen Mitteln (also «evaluations- 
gestutzt») zu begrunden (eingeleitet durch J. 
Bentham und spater verfeinert durch J.S. 
Mill). In der uti I itaristischen Ethik liegt eine 
wesentliche geistige Wurzel der modernen 
Evaluation. Gerade Bentham versucht, Ethik 
und Politik, Gesetzgebung und Verwaltung zu 



einer empirisch verifizierbaren und rational 
kalkulierbaren Wissenschaft zu machen. Als 
einziges und hochstes Beurteilungskriterium 
von Moral und Recht gilt das Prinzip desNut- 
zen s 



Zeitalter der i ndustriel I en Revolution 

Zur Mittedesl8. Jahrhundertsentwickelt sich 
auf der Grundlage technischer Innovationen 
(Werkzeugmaschinen, Dampfmaschine) das 
Fabriksystem und damit die kapitalistische 
Produktionsweise. Die empirischen Wissen- 
schaften werden immer zielgerichteter nut- 
zenorientiert zur Losung gesellschaftlicher 
Probleme eingesetzt (soziale Evaluation). Auf 
dieser Grundlage erwachst schlieRlich die bur- 
gerlicheGesellschaftsordnung und dieDurch- 
setzung demokratischer Staatsformen . Durch 
die damit einhergehende Flexibilisierung ge- 
sellschaftlicher Systeme und Institutionen er- 
starkt das uti I i tari sti sch e G edan ken gut. 



20. Jahrhundert 

Explosionsartige Vermehrung des Wissens 
in den empirischen Wissenschaften, all- 
mahlicher Aufbau eigenstandiger, empiri- 
scher Gesellschaftswissenschafen (Soziolo- 
gie, Okonomie). Entwicklung spezifischer 
Evaluationsforschung alsstark expandieren- 
de Arbeitsrichtung in den empirischen Ver- 
haltens- und Sozial wissenschaften, die vor 
allem in den besonders wenig traditionsge- 
bundenen Gesellschaften (USA!) in nahezu 
alien gesel I sch aftli chen Bereichen (Bildung, 
Wirtschaft, Politik und Verwaltung, Um- 
welt, Gesundheit, Wohnungsbau, Militar) 
eine wesentliche Gestaltungshilfe wird. 

Fur weiterfuhrende Literatur vgl. MittelstraR, 
1983; WuRing, 1983; Lange, 1983; Ritter und 
Grunder, 1982; Aristoteles, 1981; Hoffe, 
1975a, 1975b; Bi rn bach er und Floerster, 1976; 
Floerster, 1971; Mason, 1961. 



Ein wichtiger EinfluRfaktor ist die Unter- 
nehmenskultur bzw. der Fuhrungsstil derjewei- 
ligen Institution, die «fehlerfreundlich» und 



innovationsunterstutzend sein muR (vgl. dazu 
Briam, 1996, Osterhold, 1996, Schein, 1995, 
Zink, 1994). 
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Geschichtliche Entwicklung des 
Evaluationsgedankens 

Fur die Idee einer empirischen, sozialwissen- 
schaftlich gestutzten Evaluation wurden erst im 
Laufe einer langen geistesgeschichtlichen Ent- 
wicklung die erforderlichen Grundlagen ge- 
schaffen. Eine grobe Ubersicht ist im Diagramm 
11/ 1 enthalten. 

Versucht man, diese Entwicklung unter psy- 
chologischem Gesichtswinkel nachzuvollzie- 
hen, so durfte der entscheidende Schritt gewe- 
sen sein, daft den Menschen bewuftt wurde, 
auch gesellschaftlich relevantes Handeln unter 
Optimierungsaspekten selbst rational gestalten 
zu konnen. Ein solcheszielorientiertes, bewuft- 
tes Handeln ist in keiner Weise selbstverstand- 
lich, auch heutenicht. Zumindest im christli- 
chen Europa durfte die als frei erlebte 
Konzeption gesellschaftlicher Strukturen erst 
moglich gewesen sein, nachdem dasgeozentri- 
sche Weltbild und die damit verknupfte Uber- 
schaubarkeit des von Gott beobachteten Uni- 
versums, die Einzigartigkeit der von Menschen 
bewohnten Erde in Frage gestellt wurde. Die 
Reaktion der damals Machtigen, vielleicht so- 
gar ohne eine bewuftte, rationale Durchdrin- 
gung der durch solche Denkprozesse ausgelo- 
sten potentiellen Veranderungen, war 
entsprechend heftig. Man vergleichedazu etwa 
Leben und Werk von Giordano Bruno (siehe 
etwa Brockmeier, 1980; Huber, 1965) Oder die 
bekannteren Vorgange im Zusammenhang mit 
Galilei (Mason, 1961; Wufting, 1983; s. auch 
Brecht, 1963) 

Die dominierenden Steuerungsformen gesell- 
schaftlicher Systemesind aber nicht nur fur die 
feme Vergangenheit relevant, sondern pragen 
auch die Durchfuhrungsbedingungen aktueller 
Evaluationsprojekte. Eine wesentliche Unter- 
scheidung unterschiedlicher Formen der 
Systemsteuerung ist dabei die Trennung zwi- 
schen Input-, Verhaltens- und Output-Steue- 
rung (siehe dazu Diagramm 11/ 2). 

Wenn ein System (wenn auch sicher nicht 
ausschlieftlich) durch Input-Kontrollegesteuert 
wird, wie es zum Beispiel hinsichtlich der 
Professoren an Universitaten in Deutschland 
der Fall ist, dann werden sich entscheidungs- 
relevante Evaluationsprojekte vorwiegend mit 
verschiedenen Formen der Gestaltung dieses 



Auswahlverfahrens (zum Beispiel das Ausmaft 
der Berucksichtigung von Forschungs- Oder 
Lehrlei stun gen in der Vergangenheit, Zusam- 
mensetzung der Entscheidungsgremien, Zu- 
gangsberechtigungen zum Auswahlverfahren) 
befassen. Ist ein System primar verhaltens- 
kontrolliert (wie typischerweise die offentliche 
Verwaltung, aber im Prinzip der gesamte of- 
fentliche Dienst und viele Innendienstbereiche 
der Wirtschaft), dann konzentrieren sich Eva- 
luationsvorhaben auf die Compliance gegen- 
uber den Vorschriften und Maftnahmen zu 
deren Erhohung (zum Beispiel durch entspre- 
chende Motivationsanreize Oder Leistungs- 
beurteilungen fur die Systemangehorigen), 
auch auf einemoglichsteffizienteund schnelle 
Umsetzung von Veranderungen im Vorschrif- 
ten system. Es ware in einem solchen Denk- 
system aber vollig unangemessen, zum Beispiel 
eine neue Bestimmung im Rahmen eines 
Eval uati on sproj ektes h i nsi ch tl i ch i h res N utzens 
(Outputs) zu bewerten - ein Gesetz ist dann 
richtig, wenn es ordnungsgemaft beschlossen 
wurde, nicht, wenn seine Auswirku n gen einen 
konkreten Nutzen fur die Burger zeigen (zu- 
mindest gilt dies in klassischen, verhaltens- 
kontrolliertdenkenden Burokratien). Innerhalb 
dieser Systeme ist eine solche Art von Bewer- 
tung auch sinnvoll, man konntezum Beispiel 
die Bestimmungen einer Prufungsordnung 
nicht danach optimieren, ob einzelne Studen- 
ten durch deren Anwendung (zum Beispiel 
Verbot von allzu vielen Prufungswieder- 
holungen) in irgendeiner Weise «gl uckl ich » 
werden. 

Im Gegensatz dazu wurden sich in output- 
bzw. ergebnisorientierten Systemen dieEvalua- 
tionsvorhaben schwergewichtig mit der Opti- 
mierung des erlebbaren Nutzens beschaftigen, 
also zum Beispiel verschiedene «Verhaltens- 
vorschriften» nach solchen nutzen bezogenen 
Kriterien vergleichend bewerten. Wichtig fur 
Evaluationsprojekte ist, daft es vielen Ge- 
sprachspartnern aufterordentlich schwer fallt, 
Evaluationsvorhaben auf der Basis einer ande- 
ren prinzipiellen Form der Systemsteuerung als 
der selbst erlebten uberhaupt akzeptieren zu 
konnen. Manchmal werden solche Vorschlage 
als ausgesprochen unsinnig, vielleicht auch 
tabuverletztend erlebt. Wer kamezum Beispiel 
ernsthaft auf die Idee, selbst in der derzeitigen 
gesellschaftlichen Situation Deutschlands , die 
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Diagramm 11/ 2 

Unterschiedliche Formen der Systemsteuerung 



Systemsteuerung 



Inputkontrolle Verhaltenskontrolle Ergebniskontrolle 




im Selbstverstandnis vor allem der Wirtschaft 
stark ergebnisorientiert gepragt ist, die MalS- 
nahme «Verteilung eines grolSen Teiles wirt- 
schaftlicher Macht durch das Vererben des 
Besitzes von kleinen und mittelstandischen 
Unternehmen» (eine klassische Form der 
Input-Kontrolle durch die Regelungen zur 
Erbberechtigung) hinsichtlich ihres gesamt- 
gesellschaftlichen Nutzens mit anderen Ver- 
teilungsmoglichkeiten (zum Beispiel auf der 
Basis psych ologischer Eignungsdiagnostik in 
Form der Feststellung des unternehmerischen 
Potentials) zu bewerten und ggf. darauf eine 
Veranderung der bestehenden Regelungen auf- 
zubauen? Man mul$ wirklich nicht in das 
Mittelalter zuruckgehen, um klare Grenzen 
moglicher bzw. sinnvollerevaluativerVorhaben 
in Abhangigkeit von Grundlagen der System- 
steuerung zu finden. 

Auch im alltaglichen Rahmen der Eva- 
luationsarbeit zeigen sich entsprechende Ein- 



flusse. Es macht fur die Projektgestaltung 
einen grolSen Unterschied, ob man etwa die 
Bildungsabteilung eines Unternehmens mit 
der heuteetwasaltmodisch erscheinenden In- 
put-Kontrolle (Auswahl guter Dozenten und 
von gutem didaktischen Material, der Rest 
wird schon laufen!) als Auftraggeber hat, ob 
die Bildungsabteilung stark verhaltenskon- 
trolliert (bis hin zu detail I iertesten Einzelan- 
weisungen fur dasTrainerverhalten) gesteuert 
wird, Oder obes sich bereitsum ein modernes 
«Profit-Center» mit eindeutigem Streben nach 
(auch wirtschaftlicher) Optimierung des Out- 
puts handelt. Der in den letzten Jahren deut- 
lich gewordene gesellschaftliche Wandel hin 
zu mehr Output-Kontrolle, gerade in den fru- 
her stark burokratisierten Bereichen, bringt 
auch entsprechende Veranderungen in der 
Schwerpunktsetzung von Evaluationspro- 
jekten mit sich (vergleichedazu auch Diagramm 
ll/3). 
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2.1.2 Nutzenerwartungen 
des Auftraggebers 



Da die sozialwissenschaftlich gestutzte Eva- 
luation in praktisch alien gesellschaftlich re- 
levanten Bereichen des menschlichen Ver- 
haltens eingesetzt werden kann, gibt es eine 
sehr grofte Vi el fait von Zielen bei den poten- 
tiellen Auftraggebern . 

Eine erschopfende Darstellung ist daher 
nicht moglich, die haufigsten durften die 
folgenden sein: 

• Bewertung ohne detail I ierte Zielsetzung 

• Verantwortungsdelegation 

• Durchsetzungshilfe 

• Entscheidungshilfe 

• Optimierungsgrundlagen 

• Kontrolle der Zielerreichung 

Sie werden im folgenden kurz skizziert. 



Bewertung ohne detaillierte Zielsetzung 

Haufig spricht man hier nicht von Evaluation, 
sondern von «Uberprufung» Oder «Kontrolle». 
Ausgang ist wohl meist ein diffuses Unbeha- 
gen, wie zum Beispiel «Was leistet eigentlich 
unsere Bildungsabteilung?» Oder «Hat diese 
Verordnung auch nur annahernd daserbracht, 
was wir damit wollten?». 

Gesucht wird eine moglichst umfassende In- 
formationen uber dieausgelosten bzw. von der 
jeweiligen Institution zu verantwortenden Ef- 
fekte, meist auch mitdem Hintergedanken, daft 
die Evaluatoren im Sinne eines normen- 
bezogenen Vergleiches mit den «durchschnitt- 
lichen»Resultaten ahnlicher Maftnahmen auch 
eine Bewertung ermoglichen. 

Da ein solcher Auftrag zwangslaufig ein ge- 
wisses M ifttrauen gegenuber den Verantwort- 
lichen, Befurwortern Oder Nutznieftern der 
zu evaluierenden Einrichtung bzw. Maftnah- 
mezum Ausdruck bringt (ansonsten brauch- 
te man die Evaluation ja nicht), muft der 
Evaluator mit emotionalen Problemen, ver- 
deckten Oder offenen Widerstanden und der 
Gefahrvon Fehlinformation durch dieBetei- 
ligten rechnen (vgl. Abschnitt 4.1). 



Verantwortungsdelegation 

Vor allem bei unter grower Unsicherheit ge- 
troffenen Innovationsentscheidungen (Einrich- 
tung eines Modellversuchs mit offentlichen 
Mitteln, Anderung eines Ausbildungskon- 
zeptes, Schaffung einer neuen Abteilung Oder 
gravierende Organisationsanderungen im Per- 
sonalwesen) gibt es eine gewisse Tendenz, 
d i e Veran two rt u n g f u r d i e ei n gef u h rte M aft n ah - 
me wenigstens zum Teil auf andere zu verla- 
gern. Esbietetsich an, selbst ohne sinnvoll er- 
scheinende und ausgearbeitete Alternativen, 
also ohne eine explizite Entscheidungssitua- 
tion, eine begleitende Evaluation durchfuhren 
zu lassen. Man bekundet damit Vorsicht und 
hofft vielleichtdarauf, daft dieTatsacheder Eva- 
luation als solche schon ein wenig zur Verbes- 
serung beitragt (vgl. dazu die «Wissenschaftli- 
che Begleitung» von Modellprojekten). 



Durchsetzungshilfe 

Bei diesem Ziel des Auftraggebers si nd zwei, fur 
die Durchfuhrung und emotionale Akzeptanz 
von Evaluationen sehr verschiedeneTeilzielezu 
unterscheiden: 

• Die Durchfuhrung der Evaluation selbst, un- 
abhangig von den Resultaten, soil die ge- 
wunschte Maftnahme erleichtern Oder die 
unerwunschte Maftnahme verhindern; 

• Di eErgebnisse sol len so beschaffen sein, daft 
esdereigenen Zielsetzung entspricht; 

Der erstgenannte Aspekt ist meist, wenn auch 
vielleicht ungewollt, eine notwendige Folge 
wissenschaftlich sinnvoll gestalteter Evalua- 
tion sprojekte. Mochte man zum Beispiel eine 
politisch umstrittene Schulform einfuhren, ist 
ein «probeweises» Einrichten einiger Schulen 
dieser Art um vieles leichter moglich als eine 
globale Systemanderung, es gibt weniger un- 
mittelbar Betroffene, und es ist auch aufteror- 
dentlich schwer, rational gegen den Vorschlag 
«Sehen wir nach, was herauskommt» zu argu- 
mentieren. Durch dasSchaffen von Fakten set- 
zen Gewohnungsprozesse ein, die Neuerung 
wird nach einiger Zeit nicht mehr als neuartig 
erlebt und ist damit leichter ein richtbar (fur sol- 
che Vorgehensweisen wird haufig auch der Be- 
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griff «Salami-Taktik», die Veranderung in klei- 
nen Portionen, gebraucht). Andererseits haben 
die Gegner der Innovation dadurch die Mog- 
lichkeit, Zeit zu gewinnen. Fur groRere Evalua- 
tionsprojekte muR man mit mehreren Jahren 
Laufzeit rechnen, in dieser Zeit mag der Elan 
der Befurworter der Neuerung nachlassen, an- 
dere pol itische Inhalte werden dominierend. 
Fur beide Seiten bildet die (auch aus wissen- 
schaftlichen Gesichtspunkten vollig berech- 
tigte) probeweise Einfuhrung von Neuerungen 
auch eine bessere Chance, «glaubwurdige Zeu- 
gen» fur die eigene Auffassung aus den Reihen 
der Personen zu finden, die mit der Innovation 
personliche Erfahrung gesammelt haben und 
diese positiv Oder negativ bewerten. Ein inter- 
essantes Bei spiel im Zusammen hang mit dieser 
Zielsetzung von «Evaluationen» sind ubrigens 
die often tli chen Diskussionen und die in Auf- 
trag gegebenen Versuche zum Themenbereich 
«Tempo lOOauf Autobahnen»(siehedazu auch 
Will etal. 1987, S. 25 ff.). 

In Anbetracht dieses spezifischen Nutzens, 
den sowohl Gegner als auch Befurworter von 
Innovationen bei (nicht unbedingt nur pol i- 
tisch) umstrittenen Vorhaben aus Evaluations- 
projekten ziehen konnen, uberrascht es, daR 
nicht wesentlich meh r Auftrage vergeben wer- 
den. 

Der zweite Durchsetzungsaspekt, der Drang 
nach «erwunschten» Ergebnissen, ist leichter 
often zu diskutieren. DieHoffnung desAuftrag- 
gebers, mit dem Resultat des Evaluations- 
projektes seine vorgefaRte Meinung stutzen zu 
konnen, istwohl menschlich verstandlich und 
haufig die eigentlich relevante Entscheidungs- 
gru n d I age f u r d i e Vergabe d es Proj ektes. Probl e- 
matisch kann essein, wenn der Auftraggeber 
ergebnisorientierten EinfluR auf Durch- 
fuhrungsbedingungen, Personalauswahl Oder 
Berichtlegung nimmt. Flier sind die Durch- 
setzungsstarke und die professionelle Verant- 
wortungsbereitschaftder Evaluatoren (vgl. dazu 
Abschnitt 2.3.3) manchmal massiv gefordert, 
was naturlich Probleme bereitet, wenn diese 
rechtlich (Unterstellungsverhaltnis, Anwei- 
sungsbefugnisse) Oder faktisch (finanzielle Ab- 
hangigkeit, Drang nach Folgeauftragen) vom 
Auftraggeber abh an gen. Aus diesem Grund wer- 
den zumindest bei wichtigen und umstrittenen 
Vorhaben bevorzugt unabhangige Evaluatoren 
herangezogen, soweit diesmbglich ist. 



Entscheidungshilfe 

Diese Zielvorstellung durfte dem Selbstver- 
standnis der meisten Evaluatoren entgegen- 
kommen. Im I dealfal I gibt es zwei Oder mehr 
ausgearbeitete Alternativen (etwa verschiedene 
Varianten einer UmgehungsstraRe, von Marke- 
tingkonzeptionen, von stationaren Altenein- 
richtungen); auRerdem einen (umfassenden) 
Katalog der fur wichtig gehaltenen Auswirkun- 
gen, inklusiveeiner konsensmaRigfestgelegten 
Bewertung der Auspragungsgrade des «Nut- 
zens» der einzelnen Effekte und deren Kom- 
pensationsmoglichkeiten (also etwa die Anga- 
be, wieman dieAspekte«hohereEigenaktivitat 
der Bewohner eines Altenheimes» , «geringere 
Moglichkeit zur Machtausubung durch Pfle- 
ger», » geringere Kosten durch Ruckgang der 
Pflegebedurftigkeit»und »weniger Bedarf/weni- 
ger Arbeitsplatze fur Pflegepersonal» zu einem 
Gesamtnutzen verrechnen kann). DieAufgabe 
des Evaluators ware es dann nur, die entspre- 
chenden empirischen Resultatezu erheben und 
gemaR der bereitsfeststehenden Verrechnungs- 
form zu verknupfen. 

Leider sind Projekte dieser Art seiten, auch 
wenn es haufig zum Selbstverstandnis des 
Evaluators gehort, einen solchen Zustand zu- 
mindest nach Durchfuhrung des Projektes an- 
nahernd zu erreichen (vgl. dazu insbesondere 
Kapitel 4). Esgibt im Gegensatzzum ersten An- 
schein nur wenige Entscheidungssituationen, 
in denen alternative Moglichkeiten sowie die 
Kosten/Nutzen-Bewertungen explizite ausgear- 
beitet sind. Meist wird man sich schon freuen 
musen, wenn die Ergebnisse von Evaluations- 
studien wenigstens indirekt, in diffuser, viel- 
fach vermittelter und kaum nachvollziehbarer 
Weise in dietatsach liche Entscheidung mit ei n- 
gehen. 



Optimierungsgrundlage 

Eine ebenfalls sehr positiv zu bewertende Ziel- 
setzung des Auftraggebers ist der Versuch, die 
fragliche MaRnahme durch systematische 
Ruckmeldung zu verbessern (zum Beispiel bei 
Mitarbeitern festgestellte Defizite Oder «for- 
derungswurdige Bereiche» durch Bildungs- 
maRnahmen zu beheben, Schwachen einesGe- 
setzestextes durch Novellierung zu verbessern, 
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eine Didaktikkonzeption und diedazu verwen- 
deten Lehrmateri alien vor weiterer Anwendung 
aufgrund der bisherigen Erfahrungen zu opti- 
mieren). Der Evaluator wird bei Wahrnehmung 
dieser Rolle nicht zu einer Selektion zwischen 
verschiedenen Alternativen veranlalSt, sondern 
er soil Hinweise geben, welche Aspekte einer 
MalSnahme verbesserungsbedurftig erscheinen 
(und womoglich auch sagen, in welcher Form 
man dieserreichen konnte). Die damit verbun- 
dene Interventions- bzw. Gestaltungsaufgabe 
durftevon vielen in diesem Bereich Tatigen als 
befriedigender erlebt werden als die reine Se- 
lektion von Alternativen, setzt aber auch in 
starkerem MaBe Fachkenntnisse aus dem eva- 
luierten Bereich (und nicht nur zur Durchfuh- 
rungvon Evaluationen alssolchen) sowie hau- 
fig auch eine intensive Kooperation und 
Konsensbildung mit den Betroffenen voraus. 



Kontrolle der Zielerreichung 

Gerade im Zusammenhang mit Maftnahmen 
des Qualitatsmanagements werden Evalua- 
tionsprojekte immer wichtiger, bei denen man 
sich bemuht, das Erreichen eines vom Maft- 
nahmentrager zugesagten Ergebnisprofils zu 
uberprufen. Grundlageder Bewertung istdann 
nicht wie bei der summativen Evaluation als 
Entscheidungshilfeder Vergleich zwischen ver- 
schiedenen MaGnahmen, sondern der Ver- 
gleich zwischen erzieltem Ergebnisund erwar- 
tetem Profil. So kann etwa der nach den 
Grundsatzen des Qualitatsmanagements (vgl. 
dazu insbesondere die DIN EN ISO Norm 
9000 ff.) an einen Bildungstrager vergebene 
Auftrag lauten «DieKosten desTrainings mus- 
sen geringersein alsdiedurch die im Training 
vereinbarten Projekteim Laufeeinesjahresein- 
gesparten Kosten, gleichzeitig ist die durch- 
schnittliche Zufriedenheit der Teilnehmer mit 
dem Training mit mindestens 1,5 auf einer 
Schulnotenskala zu erreichen». Wenn einesol- 
che (in der Praxis noch wesentlich prazisere) 
Festlegung des zu erreichenden Zieles im vor- 
hinein feststeht, braucht von Seiten des 
Evaluators nur die entsprechende Messung 
durchgefuhrt und aufbereitet werden. Damit 
werden vieleSchwierigkeiten vermieden, diesich 
bei vergleichender Evaluation stellen (siehe 
dazu Abschnitt 2.2.4). 



Es soil nochmals betont werden, daft die hier 
versuchte Darstellung einiger wichtiger Ziele 
desAuftraggebersim Regelfall keineeindeutige 
Zuweisung eines Evaluationsprojektes zu einer 
dieser Zielsetzungen erlauben, schon gar nicht 
auf der Basisdespublizierten Berichtes. Obzum 
Beispiel ein Personalchef dieWeiterbildungsan- 
gebote externer Trainer evaluieren laRt, ohne 
eine genaue Zielsetzung zu haben (viel leicht, 
weil sein Kollege in einem anderen Unter- 
nehmen dies auch tut), Oder damit seine Ver- 
antwortung fur die Auswahl der Anbieter de- 
legieren mochte, vielleicht auch nur eine 
Moglichkeit sucht, unauffallig einem Bekann- 
ten einen Auftrag zu verschaffen (da dieser ja 
die Voraussetzung ist, um auch dieses Angebot 
evaluieren zu konnen), wirklich ohne vorge- 
faiSte Meinung eine rationale Entscheidungs- 
h i Ife erhofft, Oder ob er sogar bestrebt ist, durch 
eine entsprechende Auswertung der Ergebnisse 
den schwacheren Anbietern bei der Optimie- 
rung ihrer Seminargestaltung zu helfen, ist aus 
dem Auftrag als solchem in keiner Weise er- 
sichtlich. Oft wird man mit M ischformen rech- 
nen mussen, und die allgemeine multifak- 
torielle Bestimmtheit von menschlichem 
Verhalten findet sich eben auch bei der Ver- 
gabevon Evaluationsprojekten. 

2.1.3 Schwerpunkte konkreter 
Evaluationsprojekte 

Ausgehend von einer relativ einfachen Auffas- 
sung des Begriffes «Evaluation» bzw. «Bewer- 
tung» wurden immer mehr Erfahrungen mit 
Evaluationsprojekten gesammelt. Dabei zeigte 
sich, daG es eine Fulle von Detail-Zielen gibt, die 
innerhalb des jeweiligen Vorhabens angestrebt 
wurden. Es verbessert das eigene Planen, sich 
anhand der inzwischen ausgearbeiteten umfang- 
reichen Begriffsbildungen klar zu machen, wel- 
che Fragen im Vordergrund stehen. AuRerdem 
wird deutlich, in welch vielfaltigerWeiseEvalua- 
t i on en zu r Zi el errei ch u n g d es Auftraggebers (und 
anderer Gruppen) beitragen konnen. 

Es gibt heute kaum einen Bereich der ange- 
wan dt-sozi al wi ssen sch af I i ch en Proj ektarbei t, 
dem nicht irgendein vorhandener Evaluations- 
begriff zugeordnet werden konnte. Eine die 
wichtigsten begrifflichen Ausdifferenzierungen 
umfassende Darstellung ist im Diagramm 11/ 3 ge- 
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geben, wobei sich die Gliederung an den ein- 
zelnen Arbeitsschritten einestypischen Evalua- 
tionsprojektes orientiert. 



Rahmenbedingungen 

Zum Bereich der Kontextevaluation gehort 
die bewertende Untersuchung der Vorausset- 
zungen, dieschon vor der sachgerechten Pla- 



nung einer spat er zu evaluierenden MaRnah- 
me durchgefuhrt werden soil. Hierzu gehort 
die Erarbeitung der (tatsach lichen, nicht evtl. 
vorgeschobenen) ZieledesProjektes, dieauch 
ethische Bewertung der durchzufuhrenden 
Interventionen und der geplanten Verwen- 
dung der Evaluationsergebnisse sowie deren 
absehbaren, kontextbedingten Nebenfolgen. 
Evaluierungen dieser Art bilden haufig die 
Grundlagefur die Bereitschaft des Evaluators, 



Diagramm 11/ 3 

Wichtige Evaluationsbegriffe, strukturiert nach typischem Projektablauf 


Rahmenbedingungen 

(Kontextevaluation) 

• parteilicheversusuberparteilicheEvaluation 


often e versus gesch 1 ossen e Eval uati o n 


• praxisorientierte Evaluation 


Grundsatzliche Ziele 

4 

• entwicklungsorientierte Evaluation 


• theorieorientierte Evaluation 




Gerichtetheit der Fragstellung 




• Input-Evaluation 
z.B. Personal, Medien, Material, 
Unterweisung 


• Mikro-Evaluation 


• Makro-Evaluation 




Zeitpunkt 




vor einer MaGnahme 
antizipatorisch prognostisch 
prospektiv 


wahrend einer M aGnahme 
ProzeG- Oder 
dynamische Evaluation 


nach erfolgter M aGnahme 
Ergebnis- Output- Oder 
Produkt evaluation 




Kosten-Nutzen-Uberlegung 




• strategische Evaluation 


Bearbeitungsform 


• Management-Evaluation 


• intrinsische vs. extrinsische Evaluation • Compliance- vs. Program-Impact • innere (Selbst-) vs. auGere 

-Evaluation (Fremd-) Evaluation 


• summative vs. formative Evaluation • vergleichende vs. nicht-vergleichende Evaluation 




Meta-Evaluation 




• Programm-Design-Evaluation 


• ergebniszusammenfassende Meta-Evaluation 
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das Projekt uberhaupt durchzufuhren. So hat 
es keinen Sinn, bestimmte Maftnahmen zur 
Verbesserung der Situation einer Schule pro- 
spektiv zu untersuchen, wenn von Seiten der 
Leitung keine Bereitschaft besteht, wirklich 
eine Veranderung durchzufuhren Oder die 
Motivationsstruktur des Kollegiums offen- 
sichtlich jede mit zusatzlicher Arbeit fur die 
Lehrer verbundene Neuerung unmoglich 
macht. Nicht seiten findet man das offene 
Oder latenteAnsinnen parteilicher Evaluation 
(die Studie ist so anzulegen, daft unabhangig 
von der empirischen Faktenlageein bestimm- 
tes, gewunschtes Ergebnisauftritt), wasleider 
mit dazu fuhren kann, daft es fast schon zu 
den ublichen gesellschaftlichen Ritualen ge- 
hort, daft sich bei manchen Themen «Gut- 
achter» und «Gegengutachter» widersprechen 
(etwa Studien zu Mullverbrennungsanlagen, 
Autobahnerweiterungen Oder anderen gro- 
ften Bauvorhaben, Standorte Forensischer Kli- 
niken etc.). 

Grundlage fur solche vom Auftraggeber ge- 
wunschte Partei I ichkeit kann etwa die Bekrafti- 
gung einer bestimmten politisch-ideologischen 
Position bei offentlichen Projekten, der Nach- 
weis der eigenen «Tuchtigkeit» im Unterneh- 
men (etwa bei Marketingmaftnahmen) Oder 
massive fi nan zielle I nteressen von Systemteil- 
gruppen (etwa im Gesundheitswesen) sein. 
M iftbrauchsmoglichkeiten sind insbesondere 
bei geschlossener Evaluation (die Ergebnisse 
werden nur der auftraggebenden Stelle, zum 
Beispiel einer bestimmten Behorde Oder Insti- 
tution bekannt) naheliegen, so daft man grund- 
satzlich auf eine Publikation der Ergebnisse 
wert legen sollte. Einer solchen sinnvollen und 
der wissenschaftlichen Ethik entsprechenden 
Forderung konnen aber auch sehr berechtigte 
I nteressen des Auftraggebers entgegenstehen, 
etwa die Konkurrenzsituation zwischen ver- 
schiedenen Firmen. 



Grundsatzliche Ziele 

Setzt man das Projekt fort, ist (schon zur Ver- 
meidung spaterer Diskordanzen) diegrundsatz- 
licheOrientierung desProjekteszu bestimmen. 
Diese kann sich ausschlieftlich auf das Bewer- 
ten konkreter Praxiseffektekonzentrieren (etwa 
den Erfolg einer psycho I ogischen Therapiefur 



eine definierte Personengruppe), sie kann aber 
auch eher entwicklungsorientiert sein (dieZiel- 
setzung ware dann die Verbesserung der 
Interventionsmaftnahmen fur spatere Anwen- 
dungen) Oder besonders theoriefordernde 
Aspekte betonen (zum Beispiel eine Prufung 
theoretischer Uberlegungen auf der Basis des 
Erfolges bestimmter therapeutischer Vorge- 
hensweisen). Da bei wissenschaftlich vorgebil- 
deten Evaluatoren haufig einestarkereTendenz 
zum theorieorientierten Vorgehen besteht, als 
dies vom Auftraggeber aus naheliegenden 
Grunden gewunscht wird, sollte uber die 
Flauptrichtung des Vorhabens ein Einverneh- 
men erreicht werden. 

Ebenso wichtig fur die Ausarbeitung der Pro- 
jektdetails ist, ob der Schwerpunkt der Frage- 
stellung im Micro- Oder im Macro-Bereich zu 
sehen ist. Von Micro-Evaluation spricht man 
ublicherweisedann, wenn nurDetails(etwadie 
didaktische Aufbereitungen eines Unterrichts- 
textes) interessieren, Macro-Evaluation liegt 
vor, wenn komplexere Einheiten (zum Beispiel 
Fragen der Schu I organisation) untersucht wer- 
den. 



Zeitperspektive 

Auch hinsichtlich desZeitpunktesder Evaluati- 
on im Rah men des Gesamtablaufes der Maft- 
nahme wurden verschiedene Konzepte ausdif- 
ferenziert. An zeitlich erster Stelle steht die 
sogenannte strategische Evaluation, bei der es 
darum geht, zu beurteilen, ob dieUrsachen des 
in Frage stehenden Problems richtig erkannt 
und die vorgesehene Problem I osun gen bzw. 
Maftnahmen vorausssichtlich angemessen 
sind. Damit verwandt ist der Begriff der pro- 
spektiven bzw. antizipatorischen Evaluation, 
bei der es darum geht, eineMaftnahmevorde- 
ren Realisierung auf der Basis geeigneter Sozial- 
techniken zu bewerten. Ein typischer Fall dafur 
ist etwa die Auswahl einer bestimmten unter 
verschiedenen moglichen Baumaftnahmen 
(durch Experten Oder Betroffene). Es hatteja 
keinen Sinn, dieMaftnahme(zum Beispiel eine 
bestimmte Straftenfuhrung) zuerst konkret 
durchzufuhren und erst im Nachhinein bewer- 
ten zu lassen. Von prognostischer Evaluation 
spricht man, wenn die Untersuchung dazu die- 
nen soil, eine empiriegestutzte Prognose uber 
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den Erfolg einer spaterdurchzufuhrenden MaR- 
nahmeabzugeben. Dafurtypisch sind etwaUn- 
tersuchungen auf der Basis von Testmarkten 
(ein neues Marked ngkonzept wird zunachst 
nur in einem relativ kleinen Gebiet in der Bun- 
desrepublik, meist Berlin Oder das Saarland, 
eingefuhrt und von den Ergebnissen dort das 
vermutliche Resultat bei Einfuhrung im Bun- 
desgebiet prognostiziert) Oder Versuche im 
Schulbereich, die zunachst nur mit ausgewahl- 
ten Modellschulen durchgefuhrt werden. 

Bei der sogenannten Input-Evaluation geht 
es darum, die fur eine bestimmte MaRnahme 
eingesetzten Ressourcen (im weitesten Sinne) 
zu bewerten. Siekann sich sowohl auf die ma- 
teriel I eAusstattung bezi eh en (wenn diesezum 
Beispiel qualitativ Oder quantitativ unzurei- 
chend furdasErreichen desangestrebten Zieles 
ist), aber auch auf beteiligte Personen, zum Bei- 
spiel die Motivation von Teilnehmern an einer 
WeiterbildungsmaRnahmeoder dieemotionale 
und kognitiveVorbereitung von Lehrern inner- 
halb einesSchulversuches. 

Zumindest bei langerfristigen Interventions- 
programmen empfiehlt es sich, auch wahrend 
derlaufenden MaRnahmedynamisch vorzuge- 
hen, also den ProzeR fortlaufend zu evaluieren 
und ggf. bei dem Auftreten von Storungen, un- 
vorhergesehenen und unerwunschten Ergeb- 
nissen Oder einer Anderung der Rahmenbedin- 
gungen und Zielsetzungen sofort korrigierend 
einzugreifen. Besonderswichtig ist hierdiefort- 
laufende Uberprufung der (Lern-)Ziele, die Kon- 
trolle und ggf. Optimierung des fur die MaR- 
n ah me ei n gesetzten M ateri al s bzw. Tech n i ken , 
sowie die erfahrungsgestutzte Bewertung der 
zur Prufung der Ergebnisse ein gesetzten Instru- 
mente (etwa Skalen fur den Therapieerfolg, 
Tests zum Feststellen des Lernergebnisses Oder 
Methoden zur Effektivitatsprufung einer MaR- 
nahme). 

Eine dynamische Konzeption des Evalua- 
tion sprojektes ist vor allem bei stark praxisbe- 
zogener Fragestellung von erheblichem Vorteil 
und manchmal auch aus ethischen Grunden 
(unerwunschte Nebenfolgen!) unverzichtbar, 
hat aber den erheblichen Nachteil, daR Dauer 
und Kosten zu Beginn des Projektes nicht zu- 
verlassig kal ku I iert werden konnen. Eskann da- 
her zweckmaRig sein, die begleitende Evalua- 
tion langerer Vorhaben in mehrere kleine 
verbundene Einzelprojekte aufzuteilen, und 



den Folgeauftrag fur das nachste (Teil-)Projekt 
erst dann zu vereinbaren, wenn auf der Basis 
der zunachst vorliegenden Ergebnisseeinekon- 
krete Planung moglich ist. 

Nach endgultig abgeschlossener MaRnahmeist 
im wesentlichen nur noch eine Bewertung des 
Ergebnisses (auch Output- Oder Produkt- 
evaluation) moglich. Der Schwerpunkt kann 
hierbei auf einer statischen bzw. vergangen- 
heitsorientierten Bewertung der gefundenen 
Ergebnisse Oder auf einer eher veranderungs- 
orientierten, die Durchfuhrung neuer und ver- 
besserter MaRnahmen anregenden Interpreta- 
tion liegen. 



Nutzenuberlegungen 

Soweit sich die Bewertung einer MaRnahme 
und eines Programms auch auf Kosten-Nut- 
zen-Uberlegungen stutzt, sollte man von An- 
fang an klaren, ob ausschlieRlich die Fest- 
stellung der Kosten und des damit erzielten 
Nutzens Oder auch die (relative) Effektivitat 
der MaRnahme von Bedeutung ist. Die erste 
Vorgehensweise stellt fur sozialwissenschaft- 
lich gestutzte Interventionen meist eine be- 
scheidenere Forderung dar, da bei halbwegs 
sinnvoller Planung und nicht allzu ungunsti- 
gen Rah men bed in gun gen die getatigten Auf- 
wendungen meist geringer sind alsder damit 
erzielteNutzen, soweit sich dieserausreichend 
quantitativ erfassen laRt. Schwieriger ist die 
Erzielung zufriedenstel lender Effektivitat, da 
hier durch die Berucksichtigung des Nutzens 
pro Aufwandseinheit ein Vergleich mit alter- 
nativen MaRnahmen naheliegtund vor allem 
groRere (und damit auch entsprechend auf- 
wendige) Projekte dabei sch lech ter abschnei- 
den konnen als einfache, schnell und billig 
durchzufuhrende praxeologische MaRnah- 
men, die zwar vom absoluten Betrag her gese- 
hen auch weniger Nutzen erbringen, aber be- 
zogen auf den Aufwand die hohere «Rendite» 
zeigen. 



Bearbeitungsformen 

H insichtlich der verschiedenen Bearbeitungs- 
formen innerhalb eines Evaluationsprojektes 
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konnen hier nur einigebesonderswichtige Be- 
griffe skizziert werden. Von extrinsischer Eva- 
luation spricht man, wenn (wie haufig) eine 
MaGnahmeaufgrund ihrer Auswirkung bei den 
jeweiligen Adressaten uberpruft wird, von 
intrinsischer, wenn die Bewertung unabhangig 
von konkreten Auswirkungen dieser Arterfolgt 
(zum Beispiel bei der ideologiekritischen Un- 
tersuchung eines Curriculums Oder bei der Be- 
wertung eines Personalentwicklungssystems 
hinsichtlich seiner Passung zur jeweiligen 
Unternehmenskultur durch die Befragung der 
dortigen Fuhrungskrafte). Eine andere Unter- 
scheidung ist dieTrennung der Bewertung der 
Programmauswirkungen (Program Impact) im 
Gegensatz zur Compliance-Evaluation, bei der 
es darum geht, wie weit eine MaGnahme uber- 
haupt befolgt wurde. Besonders wichtig ist dies 
etwa bei medikamentoser Behandlung (fehlen- 
de Compliance liegt vor, wenn die Patienten 
die vorgeschriebenen Medikamente nicht ein- 
nehmen, was haufig der Fall ist) Oder bei der 
Erprobung neuer Curricula Oder Lehrformen 
(haben sich die Lehrer uberhaupt an die 
Programmvorgaben gehalten?). Fur die Bewer- 
tung einer MaGnahme spielt es naturlich eine 
groGe Rolle, ob ein negatives Resultat auf feh- 
lende Compliance Oder fehlende Programm- 
effektivitat zuruckzufuhren ist. 

Unter innerer (oder Selbst-)Evaluation versteht 
man Vorhaben, bei denen die Mitarbeiter einer 
Institution (im Extremfall sogar der Planer und 
Durchfuhrer der jeweiligen InterventionsmaG- 
nahme) auch fur die Bewertung verantwortlich 
sind, von auGerer, wenn eine entsprechende 
personelle Trennung erfolgt. Zur Vermeidung 
massiver Beurteilungsfehler sollte eigentlich 
stetsbei wissenschaftsgestutzten Projekten (im 
Gegensatz zum subjektiven Lernen wahrend 
der personlichen Berufspraxis) von einer auGe- 
ren Evaluation ausgegangen werden, doch 
scheitert dies gelegentlich an den dafur erfor- 
derlichen finanziellen Mitteln. 

Eineweiterewichtigelinterscheidung, dieahn- 
lich schon weiter oben angesprochen wurde, 
ist dieTrennung von summativer (eineglobale, 
zusammenfassende Bewertung abgebender) 
und formativer (vorwiegend zur Gestaltungs- 
verbesserungangelegter) Evaluation. Ein forma- 



tivesVorgehen ist meist befriedigender, daman 
dabei mehr Gelegenheiten hat, auf der Basis 
entsprechender Fachkenntnisse gestaltend ta- 
tig zu werden. Manche Auftraggeber sind aber 
an «klaren Entscheidungen» interessiert, sei es 
an der Auswahl der besten aus mehreren Alter- 
nativen (vergleichende Evaluation) Oder der Be- 
wertung einer MaGnahme an normativer 
Standards Oder vorgegebenen Zielsetzungen 
(n icht-vergleichendes Vorgehen ). 



Erfahrungsaufbereitung 

Nach AbschluG von Evaluationsprojekten soil- 
ten die dabei gemachten Erfahrungen nach 
Moglichkeit aufbereitet und zusammengefaGt 
werden, was man allgemein als «Meta-Evalua- 
tion» bezeichnet. Dabei ist zu unterscheiden, 
ob diese Zusammenfassung die uber eine be- 
stimmte MaGnahme erzielten Ergebnisse inte- 
grierend darstellen soil, also etwa globaleAus- 
sagen uber die Effektivitat einer bestimmten 
Therapie oder einer bestimmten Organisations- 
form gewunscht werden; in diesem Fall spricht 
man von summierender Meta-Evaluation, da- 
fur wurden auch eine Reihe spezieller stati- 
stischer Techniken entwickelt (Smith & Glass, 
1981). Eine andere Art der zusammenfassen- 
den Auswertung bestehtdarin, Hinweisefurdie 
verbesserte Gestaltung neuer Evaluations- 
projektezu erhalten, sei esfur das verwendete 
Instrumentarium, Techniken zur Feststellung 
der Ziele und Konsequenzen oder fur die je- 
weils gewahlten Untersuchungsdesigns (Pro- 
gram-Design Evaluation). Erfahrungsaufberei- 
tungen dieser Art sind die Grundlage, auf der 
sich allmahlich die Leistungsfahigkeit profes- 
sioneller Evaluation weiter optimieren laGt. 

Die hier am Ablauf eines Evaluationsprogram- 
mes strukturierte Begriffsbildung ist in keiner 
Weise erschopfend, leider finden sich in der 
Literatur gelegentlich auch widerspruchliche 
Auslegungen des gleichen Begriffes. Fur eine 
weitergehende Vertiefung in die spezielle Be- 
griffswelt der Evaluation empfiehlt sich etwa 
Gell und Pehl 1970, Wittrock und Wiley 1970, 
Wulf 1972, Attkisson und Broskowski 1978, 
Biefang 1980, Flellstern und Wollmann 1984, 
Wittmann 1985. 
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2.2 Wissenschaft als 
mogliche Grundlage 
von Evaluation 

Die im vorhergehenden Abschnitt dargestell- 
ten gesellschaftlichen Bedurfnisse erfordern in 
gewissem Umfang die Durchfuhrung empirisch 
gestutzter Evaluation. Diese muB aber nicht 
u n bed i ngt «wi ssen schaftl i ch » sei n . Es gi bt zah I - 
reiche Kontrolleinrichtungen, denen man die- 
ses Pradikat sicher nicht zuordnen wurde (Rech- 
nungshofe, Controlling-Abteilungen, Jahres- 
bzw. Rechenschaftsberichte von Firmen, Insti- 
tuten Oder Bildungseinrichtungen, dieZusam- 
menfassung von empirisch belegbaren Vor- 
kommnissen als Grundlage einer Kritik durch 
Vorgesetzte u.s.w.), die aber den groBten Teil 
empirisch fundierter Evaluation in unsererGe- 
sellschaft uberhaupt bestreiten. Dies wirft die 
Frage auf, was eigentlich Wissenschaft im be- 
sonderen fur dieses Problemfeld leisten kann. 

Grundvoraussetzung fur einen sinnvollen 
Beitrag ist, daB das soziale System «Wissen- 
schaft» bereit ist, an (praxisbezogenen) Evalua- 
tionen teilzuhaben. Flier ware zu uberprufen, 
ob es sich bei der Evaluation uberhaupt um 
wissenschaftliche Forschung, Oder ein eigen- 
standigesAnwendungsgebiet, miteigenen Nor- 
men und Werthaltungen handelt (2.2.1). Au- 
Berdem muB der «wissenschaftliche» Beitrag 
einen die Kosten ubersteigenden Nutzen ha- 
ben und zumindest parti el I den nicht-wissen- 
schaftlichen Alternativen uberlegen sein 

(2.2.2) . SchlieBlich sollten auch die Alternati- 
ven zur wissenschaftsgestutzten Evaluation be- 
dacht und gegeneinander abgewogen werden 

(2.2.3) . Ein Sonderfall, mit zunehmender Be- 
deutung fur Bildungs- und Gesundheitswesen, 
aber auch die Arbeit in der Wirtschaft, ist dabei 
das Q ual i tatsman agemen t auf der Basi s der D I N 
EN I SO -9000 ff., (s. 2.2.4). 



2.2.1 Evaluation als 
wissenschaftsgestutztes Handeln 

Beziehung zwischen Wissenschaft und 
Evaluation 

Vor einer naheren Diskussion des Problems, ob 
essich bei der Evaluation um wissenschaftliche 



Forschung Oder ein eigenstandiges Anwen- 
dungsgebiet handelt, ware es an sich erforder- 
lich, den Begriff «Wissenschaft» eindeutig zu 
klaren. Allerdingsstellt sich hier ebenso wie im 
Abschnitt 1.1 das Problem, daB sich real exi- 
stierendeSysteme einer letztlich befriedigenden 
Formaldefinition entziehen. 

FaBt man wissenschaftliche Forschung als ab- 
straktes System von Gegenstandsbereich, dar- 
uber getroffenen Aussagen und vereinbarten 
Uberprufungsmethoden auf, so konnen Evalua- 
tionsprojekte innerhalb dieses Rahmen dazu 
dienen, ebenso wie andere empirische Studien 
Grundlagen fur die Gewinnung Oder Uberpru- 
fung von Flypothesen zu erhalten. Als Beispiel: 
Folgt aus einer wissenschaftlich-theoretischen 
Uberlegung, daB die Arbeitszufriedenheit von 
Montagearbeitern bei EinraumungeinesgroBe- 
ren person lichen Flandlungsspielraumes stei- 
gen sollte, waredie Evaluation einer daraufauf- 
bauenden MaBnahme im Prinzip geeignet, 
Ruckschlusseauf die Gultigkeit bzw. erforderli- 
che Detailsspezifikationen dieser These zu erar- 
beiten. Evaluationsprojekte waren bei diesem 
Verstandnis nur eine besondere Form deswis- 
senschaftlich-empirischen Arbeitens, die sich 
durch eine eher anwendungsorientierte Flypo- 
thesenformulierung auszeichnet. Ansonsten 
waren sie ein integraler Bestandteil des Kreis- 
laufes empirischer Forschung (vgl. dazu 
Wottawa, 1988, S. 22). Evaluation in dieser Be- 
trachtung ware nur ein Teilgebiet von «Wissen- 
schaft», allerdingsbei Ausklammerung der spe- 
zifisch wertenden Aspekte. 

Hilfreicher ist diellnterscheidung von Cron- 
bach und Suppes (1969, S. 20f.) in entschei- 
dungsorientierte (decision-orientated) und 
schluBfolgeorientierte (conclusion-orientated) 
Forschung. 

Von entscheidungsorientierter Forschung spre- 
chen Cronbach und Suppes dan n, wenn esdie 
Aufgabe des Forschers ist, im Rahmen einer 
Auftragsuntersuchung, die von den Entschei- 
dungstragern gewunschten Informationen zu 
liefern. 

Im Rahmen derschluBfolgernden Forschung 
formu I i ert der Forscher sel bst d i e i h n i nteressi e- 
renden Flypothesen, ohnenennenswerten Ein- 
fluB eines extern en Entscheidungstragers. Ober- 
stesZiel ist dabei nichtdiekonkretellmsetzung 
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der Ergebnissezum Beispiel in einer Institution, 
sondern die begriffliche Erfassung und Erkla- 
rung desausgewahlten Problems. 

Die Parallelen zwischen entscheidungsorien- 
tierter Forschung und der Evaluation sowiezwi- 
schen schluRfolgeorientierter Forschung und 
der wissenschaftlichen Forschung im ublichen 
Sinnesind hier unubersehbar. 

Dabei handelt es sich naturlich nicht um 
zwei scharf abgegrenzte Bereiche. In der Uber- 
gangszone zwischen Evaluation und wissen- 
schaftlicher Forschung durften sogar eher die 
meisten Untersuchungen angesiedelt sein. 

Glass (1972, S. 169f.) fuhrt die Unterschei- 
dung zwischen Evaluation und Forschung kon- 
sequent weiter, indem er definiert, daR Evalua- 
tion den Wert, Forschung dagegen die 
wissenschaftliche Wahrheit einer Sache einzu- 
schatzen versuche. Dabei setzt er Wert gleich 
gesellschaftlichem Nutzen und i dentifi zi ert 
Wahrheit an Fland der beiden Kriterien «em- 
pirische Uberprufbarkeit eines allgemeinen 
Phanomens mit allgemeinverbindlichen For- 
schungsmethoden» sowie «logische Konsi- 
stenz». 



Rolle des Evaluators 

Sieht man wissenschaftliche Forschung in dem 
von Glassbeschriebenen Sinne, so wird dieUn- 
terschiedlichkeit der «Berufsrolle» des Wissen- 
schaftlers und des Evaluators deutlich. Auf der 
einen (extrem gezeichneten) Seitesteht der un- 
abhangige, frei nach Wahrheit suchende For- 
scher, der nur sich und der Wissenschaft ver- 
pflichtet ist; auf der anderen Seite steht der 
auftragsabhangige, von den Interessen und Vor- 
lieben der Auftraggeber determinierte Evalua- 
tor, derzwarfachlich und organisatorisch kom- 
petent sein mag, aber in einem vollig anderen, 
wissenschaftsextern gepragten Normensystem 
lebt (bzw. leben muR, um akzeptiert zu werden 
und weitere Auftragezu erhalten). 

Da fur viele, gerade an Universitaten tatige 
Forscher die (relative) Unabhangigkeit ihrer Be- 
rufsgruppe ein ganz entscheidendes Merkmal 
fur ihr Selbstverstandnis und Selbstwertgefuhl 
ist, war die Bewertung der Rolledeseben nicht 
nur «rein wissenschaftlich» agierenden 
Evaluators zunachst mehr als zuruckhaltend 
(vor diesem Flintergrund sind auch dieAusfuh- 



rungen von Weizsacker im Diagramm 1/ 1 ver- 
standlich). Auch heute noch durften nur we- 
nige Kollegen innerhalb ihrer relevanten 
Wissenschaftssubgruppe voll akzeptiert sein, 
wenn sie ausschlieRlich Evaluationsprojekte 
durchfuhren und nicht wenigstens zusatzlich 
auch «echte» Forschung betreiben. Es ist nahe- 
liegend, da(5 manchemit Evaluationsprojekten 
beschaftigte Forscher versuchen, auch in die- 
sen Studien moglichst nach wissenschafts- 
internen Gepflogenheiten vorzugehen. Eine 
professionelle Arbeit setzt aber voraus, dalS man 
auch als Wissenschaftler die notwendigen, 
sachgerechten Besonderheiten der Evaluation 
emotional akzeptiert. 

Der Evaluator muG, soweiterseineeigene Rol- 
le und die Interessen des (meistensfinanzieren- 
den ) Auftraggebers auch wirklich ernst nimmt: 

• Die Rahmenbedingungen und Zielvorgaben 
des Auftraggebers akzepti eren , was der Sel bst- 
bestimmung von Forschung widerspricht; 
bei ethisch nicht akzeptablen Zielen oderun- 
sachgemaRen Bed in gun gen ist ein Projekt- 
angebot naturlich abzulehnen; 

• Im Sinneder Wahrungder Auftraggeberi nter- 
essen Einschrankungen der zu untersuchen- 
den Fragestellungen, ja sogar der Publikation 
der nach Konsensfindung gewonnenen Er- 
gebnisse akzepti eren (man denkeetwa an ei- 
nen wissenschaftlichen Bericht, in dem steht, 
daR dieSchuleunter Leitung des DirektorsY 
ein besondersschlechtes Organ isationsklima 
aufweist), wasvolligderfundamentalen Norm 
von Freiheit der Wissenschaft, die sogar ver- 
fassungsrechtlich geschutzt ist, widerspricht; 

• Im I nteresse seiner Kooperationsfahigkeit mit 
der Praxis Werthaltungen, Verhaltensweisen 
und soziale Kompetenzen ubernehmen, die 
rein wissenschaftsintern zumindest selten 
sind und dazu fuhren konnen, daR sich der 
Evaluator dieser sozialen Bezugsgruppe ent- 
fremdet; 

• Das Problem der «unwissenschaftlichen» Be- 
wertung und die damit zusammenhangende 
Maximierung von Nutzen-Aspekten in sei- 
ner Arbeit unmittelbar aufgreifen; dies steht 
im Gegensatz zur oft im Grundlagen bereich 
angestrebten «Wertfreiheit» der Wissenschaft, 
diedas Problem der Anwendung und alleda- 
mit verbundenen Bewertungsfragen auf Ent- 
scheideroderandereSubgruppen verlagert. 
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Jeder, der eine berufliche Tatigkeit im Bereich 
der Evaluation anstrebt, solltesich bewuGtsein, 
daB er damit eben nicht im engeren Sinnewis- 
senschaftlich tatig ist. Er ist wenigerfrei, starker 
an die Berucksichtigung von Interessen gebun- 
den und gleichzeitig wenigerfolgenlosalsviele 
Mitarbeiter im Grundlagen bereich. Er sucht 
nicht Wahrheiten, sondern hilft mit, die Ge- 
sellschaft innerhalb der jeweils moglichen 
Grenzen ein klein wenig besserzu gestalten, als 
sie ohne seine Tatigkeit beschaffen ware, falls 
er so kompetent ist, daB seine Befundetatsach- 
lich von den Entscheidungstragern aufgegrif- 
fen und berucksichtigt werden. Wenn man 
diese Bedingungen akzeptiert, ist der Bereich 
Evaluation sicher ein sehr interessantes, aus- 
sichtsreiches und gesellschaftlich relevantes 
Gebiet; sieht man sich aber emotional und vom 
personlichen Selbstverstandnis her eher als 
Wissenschaftler im klassischen Sinne, sollte 
man sich nicht durch externeAnreizedazu ver- 
fuhren lassen, Evaluation alsBerufsfeld zu wah- 
len. 



Wissenschaft als Hilfe fur die 
Evaluationsarbeit 

Beachtet man die Besonderheiten der Anforde- 
rungen an Evaluatoren und die sachlichen 
Strukturen, die diese Unterschiede zur reinen 
wissenschaftlichen Forschung bedingen, so 
wird klar, daB zumindest die auftragsgebun- 
dene, in einem praktischen Verwertungs- 
zusammenhang stehende Evaluationsfor- 
schung nicht «Wissenschaftliche Forschung» 
im ublichen, zumindest an Universitaten do- 
minierenden Sinnesein kann. EineAusnahme 
ware denkbar, wenn in Einzelfallen auch die 
Zielsetzung von Evaluationsprojekten von Wis- 
senschaftlern selbst vorgenommen wurde, 
wenn also der (Grundlagen-)Forscher mit dem 
von ihm sel bst gesetzten Ziel von Evaluation in 
das Praxisfeld geht. Solche Vorhaben sind aber 
auGerordentlich selten. 

Wenn Evaluation auch nicht Wissenschaft ist, 
so kann und muG sie doch wissenschafts- 
gestutzt erfolgen. Die Kenntnis der entspre- 
chenden Theorien und Befunde ist eine wesent- 
liche Grundlage, um die im Abschnitt 1.3 
diskutierte Zielperspektive soweit wie serios 



vertretbar nach vornezu verlegen und dieVer- 
netzungen der verschiedenen Flandlungsergeb- 
nissezu explizieren. Nurdiemit wissenschaftli- 
chen Methoden und auf langen Erfahrungen 
aufbauenden Meftinstrumente gestatten eine 
fund ierte Erf assung komplexer psych ologischer 
Oder sozialwissenschaftlicher Konstrukte, und 
nur die fortgeschrittenen Datenauswertungs- 
methoden ermoglichen es, diebei den meisten 
Evaluationsprojekten anfallenden hohen Da- 
tenmengen ubersichtlich und interpretierbarzu 
analysieren . Viel leicht mag auch die Erwartung 
zutreffen, daB Wissenschaftler in entsprechen- 
der beruflicher und gesellschaftlicher Position 
aufgrund ihrerrelativen Unabhangigkeitgegen- 
uber den Auftraggebern weniger von extern en 
Interessen beeinfluBbar sind und damit objek- 
tiver uber die Ergebnisse von MalSnahmen be- 
richten. Zumindest sollte man erwarten, dalS 
der Wissenschaftler gelernt hat, und auch in 
praktischen Situationen bereit ist, sich an die 
prinzipielle wissenschaftliche Regel zu halten, 
alle in eine Aussage einflieBenden Argumente 
zu explizieren, sie h insichtl ich ihrer Fundierung 
zu diskutieren und die getroffenen Bewertun- 
gen und Verknupfungen deutlich zu machen. 
Ein solcher typisch wisenschaftlicher Darstel- 
lungs- bzw. Argumentationsstil garantiert mit 
gewissen Einschrankungen die Seri ositat einer 
«wissenschaftlichen» Evaluation, ist aber 
gleichzeitig leider oft dem Bedurfnisder Praxis 
nach klaren Flandlungsanweisungen entgegen- 
gesetzt. 

2.2.2 Nutzen der 
Wissenschafts-Beitrage 

In den meisten Fallen wird von Seiten der 
Wissenschaft ein echter Sachbeitrag erwartet 
(Theorie- und Methoden ken ntnisse allgemein, 
Erfahrung in der Durchfuhrung empirischer 
Projekte). Es kommt aber durchaus vor, daB zu- 
mindest zusatzlich zu diesem Aspekt auch der 
«Zusatznutzen» von Wissenschaft bzw. Wissen- 
schaftlern wichtig ist, etwadieAufwertung von 
Projekten, die hohere Glaubwurdigkeit einer 
fachlichen Autoritat auch bei Fragen, bei de- 
nen keine besondere Kompetenz besteht u.a. 

Die Beachtung beider Aspekte (Sachleistung 
und Zusatznutzen) kann die Kooperation mit 
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Auftraggebern erleichtern und eine zweckma- 
ISige, spatere Enttauschungen vermeidende Pro- 
jektplanung unterstutzen. 



Potentielle Sachbeitrage von Wissenschaft 

Nurein dem jeweiligen wissenschaftlichen Ent- 
wicklungsstand annahernd entsprechendes 
Vorgehen bei der Auswahl und Messung der 
Kriterien, der Designplanung und Datenaus- 
wertung verhindert unnotige Schwachen des 
Projektes. Die Full e psych ologischer bzw. sozi- 
alwissenschaftlicher Theorien, Methoden und 
Interventionstechniken, die fur Evaluations- 
projekte unmittelbar genutzt werden konnen, 
i st unubersehbar. Diese Vielfalt hat zur Folge, 
dalS fur eine Berufstatigkeit im Feld Evaluation 
eine sehr breite Kenntnis der eigenen Wissen- 
schaft wich tiger ist alsein sehr tiefes Wissen in 
wen i gen Spezialgebieten. 

Die Verbindung der Evaluation mit meist sehr 
vielschichtigen Praxisproblemen bedingt, dalS 
in den meisten Fallen nicht gesagt werden 
kann, ob der gerade ausgewahlte theoretische 
Ansatz bzw. Methode Oder Sozialtechnik die 
beste Oder gar die einzige mogliche Wahl ist. 
Eine nachtragliche Uberprufung ist wegen der 
meist gegebenen Einmaligkeit von Evaluations- 
projekten kaum moglich, so dalS eine«Evalua- 
tion» der fur ein konkretes Projekt herangezo- 
genen wissenschaftlichen Grundlage meist 
entfallt. Fur den Auftraggeber bzw. den Koope- 
rationspartner aus der Praxis bedeutet dies, dalS 
er der fachlichen Kompetenz des wissenschaft- 
lichen Evaluators mit nur wenigen nachtrag- 
lichen Kontrollmoglichkeiten vertrauen mulS. 
Die Verantwortung des Wissenschaftlers, auch 
bezuglich der eigenen Informiertheit uber den 
aktuellen Sachstand, ist entsprechend hoch. 

Ein uber die Fachkompetenz in Einzelfragen 
hinausgehender Kompetenzaspekt ist die Ver- 
trautheitmiteinem bestimmten wissenschafts- 
spezifischen Paradigma, das fur Absolventen ei- 
nes Studiums meist so selbstverstandlich wird, 
dalS man den spezifischen Beitrag der so ge- 
pragten Denkweiseoft ubersieht. Ein Ingenieur 
orientiert sich «ganznaturlich»an technischen 
Gegebenheiten, ein klassisch ausgebildeter 
Wirtschaftswissenschaftler wird vor allem an 



Organisationsstrukturen und Kostenaspekte den- 
ken, ein Psych o I oge wird dasVerhalten (Ziele, 
Motive, Emotionen etc.) des einzelnen Men- 
schen in den Mittelpunkt stellen und einem 
Sozialwissenschaftler durfte es schwerfallen, 
nicht automatisch gesellschaftlicheAspektezu 
berucksichtigen. Fur jede Disziplin liegen an- 
dereVariablen fur Intervention und Erfolgskon- 
trolle nahe, sie verfugen fiber verschiedene 
Men gen von als bewahrt angesehenen Flypo- 
thesen, MelSmethoden und Uberprufungs- 
verfahren, ohnedalS von einer neutralen Stelle 
aus gesagt werden konnte, welcher Stand pun kt 
«richtig» Oder «besonders richtig» ware. Die 
Flinzuziehung eines in einem anderen Paradig- 
ma lebenden Kollegen, wie es etwa in der Ko- 
operation zwischen «Praktikern» und Wisen- 
schaftlern die Regel ist, bietet schon an sich, 
selbst ohne eine spezifisch ausgepragte Sach- 
kompetenz in Detailfragen, eine gute Chance, 
das Problem von einem neuen Gesichtswinkel 
aus umzustrukturieren und damit einen 
vielleicht bisher ubersehenen Bearbeitungs- 
vorschlag zu entdecken. Voraussetzung ist al- 
lerdings eine (leider) ungewohnliche Kom- 
munikationsfahigkeit aller Beteiligten, deren 
Fehlen erhebliche sachliche und emotionale 
Schwierigkeiten machen kann (vgl. dazu die 
«lnkommensurabilitat» verschiedener Paradig- 
men, Kuhn, 1967). 



Zusatznutzen «wissenschaftlicher» 
Evaluation 

Ein gerade unter wisenschaftlich ausgebildeten 
Personen nicht seltenerDenkfehleristes, dievon 
Verantwortungstragern (zum Beispiel Auftragge- 
bern fur Evaluationsvorhaben) getroffenen Ent- 
scheidungen als ausschliefSIich Oder zumindest 
weit uberwiegend rational-logisch abgestutzt auf- 
zufassen. DalS die Steuerung eines komplizierten 
sozialen Systems, ja auch nur die Aufrechterhal- 
tung seiner Funktionsfahigkeit, nicht so einfach 
als rationaler, leicht durchschaubarer und aus- 
schlielSIich auf Sachruckmeldung begrundeter 
ProzelS aufzufassen ist, zeigen die Untersuchun- 
gen zum komplexen Denken (vgl. dazu Dorner, 
1979, 1983 ).Es fal It dabei auf, dalS aus rein intel- 
lektuellerSichtvermutlich ein erheblicherTeil der 
in solchen psychologischen Experimenten teil- 
nehmenden Versuchspersonen im «realen» Le- 
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ben in der Lage ware, etwa eine Schneiderwerk- 
stattoderein ahnlich uberschau bares System in- 
tel lektuel I zu steuern. DaR dieseAufgabeaber bei 
Reduktionen auf sachliche Ruckmeldung und 
ohnedieEinbettung in «Erfah run g» Oder anderes 
gewohnheitsmaRigesVerhalten nichtso leicht ist, 
zeigen dieerstaunlich hohen Versagerquoten bei 
entsprechenden Simulationsexperimenten (vgl. 
dazu Putz-Osterloh 1981). 

Die psychologischen Mechanismen, dieeinen 
Zusatznutzen der Einschaltung von Wissenschaft 
uber Fachwissen hinausbedingen, sind vorallem 
im Bereich der Sozialpsychologie(Vorurteils- und 
Kleingruppenforschung, Battegay 1973; Sbandi, 
1973; Schafers, 1980; Schneider, 1985) ausfuhr- 
lich untersucht. Eine Darstellung einiger beson- 
ders wi chti ger dort aufgezei gter Effektef i ndet si ch 
in Diagramm 11/ 4. 

Fur die praktische Arbeit besonders wichtig sind 
folgen de Zusch rei bungen : 

• Neutralist der W issenschaft; man erwartet, 
daft aufgrund des Selbstverstandnisses einer 
«wertfreien» Forschung (ob dies gerechtfer- 
tigt ist, mag dahin gestellt bleiben), daR der 
Wissenschaftler in besonderem MaRe in der 
Lage ist, nur «objektive» Fakten zu beachten 
und sie nicht gemaR einer vorgefaRten Mei- 
nung gefarbt zu interpretieren. Im Prinzip 
durfte dies auch richtig sein, doch gibt es 
zweifellos auch das Phanomen der «advo- 
katorischen Evaluation» (siehe Diagramm 11/ 3 



im Abschnitt 2.1.3). Auch der Wissenschaft- 
ler ist ein «normaler» Mensch, der geradezu 
gesellschaftlich relevanten Vorhaben (zum 
Beispiel im Bildungsbereich) Oder bei MaR- 
nahmen, die seine eigene Tatigkeit unmit- 
telbar beruhren (zum Beispiel die Effekte 
verschiedenerTherapieformen fur ein en Kli- 
nischen Psychologen) durchausfestetablierte 
Vorurteile haben kann. Zur Vermeidung sol- 
dier Effekte ist der in manchen Programmen 
in den USA ubliche Losungsweg interessant, 
besonders kontroverse Vorhaben parallel von 
zwei Wissenschaftlern mit stark unterschied- 
lichen Vormeinungen evaluieren zu lassen. 
Diesfuhrt nicht nurzu einer besonders brei- 
ten Vorgehensweise unter Beachtung fast al- 
ler denkbarer Vor- bzw. Nachteile der evalu- 
ierten MaRnahme, sondern stellt auch ein 
gewisses Regulativ fur dieeinzelnen Wissen- 
schaftler dar, zur Aufrechterhaltung der eige- 
nen Reputation eine mogliche Verzerrung 
der Studie aufgrund ihrer Vormeinung so ge- 
ring wie moglich zu halten. Dies ist beson- 
ders vor dem Hintergrund der Einmaligkeit 
dermeisten Evaluationsprojekte wichtig, die 
eine Kontrolle der Angemessenheit des Pro- 
jektes bzw. die Fundiertheit der Ergebnisse 
durch Replikationsstudien nicht moglich 
macht. 

• Fachubergreifende Kompetenzzuschreibung; da 
der Fachwissenschaftler einem Laien in dem 
jeweiligen wissenschaftlichen Teilgebiet zwei- 



Diagramm 11/ 4 

Psychologische Grunde fur den Zusatznutzen wissenschaftlich ausgewiesener, externer 
Evaluatoren (Auswahl) 



• Imagedes Wissenschaftlers 

• Expert power 

• Information power 

• Credibility/Glaunwurdigkeit 

• Persuasibility/Uberzeugungskraft 

• Geringerer Gesichtsverlust in Konflikt- 
situation 

• Besserers Konfl iktmanagement durch 
den Einsatzvon Sozialtechniken 

• Objektive Vermittlung bei Konflikten 
innerhalb der Institution des Auftraggebers 



• Nonkonformitat mit informellen 
Gruppennormen 

• Objektivitat 

• Besserer Einblick in und besserer Umgang 
mit gruppendynamischen Prozessen 

• Vermeidung negativer Gruppen effekte wie 
«group thinking» Oder «group polarisation» 

• Unabhangigkeit von hierarchischen 
Strukturen auf der Seite der Auftraggeber 

• idiosyncrasy Credit» aufgrund des Status 
des Wissenschaftlers 
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fel I os kompeten zmaft i g wei t u berl egen ist, fin- 
det sich das Phanomen, ihm eine entspre- 
chende Uberlegenheit und «Autoritat» auch 
aufterhal b des Fach gebi etes zuzusch rei ben . So 
fragwurdig manche Auswuchse der Benut- 
zung dieser speziellen Art des Halo-Effektes 
auch sind (man denkeetwaan die«Wahlauf- 
rufe» von Wissenschaftlern Oder Kunstlern fur 
politische Parteien Oder die Darstellung von 
Spitzensportlem in der Produktwerbung), so 
nutzlich kann dieses Phanomen in Evalua- 
tionsprojekten sein. Dies gilt zum Beispiel fur 
die Konfliktbereinigung zwischen verschie- 
denen Mitarbeitern Oder Instanzen des Auf- 
traggebers, da diese im Regelfall die Empfeh- 
lung einer externen «Autoritat» mit 
besonderer Kompetenz leichter und ohne 
Gesichtsverlust akzeptieren konnen als eine 
interne Regelung. In gleicher Weise konnen 
Wissenschaftlerdazu beitragen, die(geradebei 
politisch interessanten Evaluationsvorhaben) 
oft irrational heftigen Kontroversen ein we- 
nig zu versach lichen, da sich normalerweise 
die Kontrahenten nicht auf Dauer dem Vor- 
wurf aussetzen wollen, gegen den «wissen- 
schaftlichen Sachverstand»zu argumentieren. 

• WeitgehendeExplikationen der Begrundungen; es 
ist fur einen wissenschaftlich gut ausgebil- 
deten Akademiker selbstverstandlich, die Be- 
grundung fur eine Bewertung in expliziter, 
logisch nachvollziehbarer Form zu erwarten. 
Bei vielen Kontroversen liegt ein Kernpunkt 
desKonfliktesabergeradedarin, daft wichtige 
Bewertungsaspekte nicht genannt werden 
(Wer sagt schon, daft er bei dem Vergleich 
verschiedener Weiterbildungsseminare in sei- 
nem Unternehmen auf der Bewertungs- 
variable «personliche Beliebtheit des Referen- 
ten bei den Teilnehmern» vor allem deshalb 
besteht, weil er meint, daft dabei sein «Lieb- 
I i n g» besondere Vorteile hat? Oder wer for- 
muliert explizit, daft er gegen eineGeschwin- 
digkeitsbegrenzung auf Autobahnen ist, weil 
erselbstesgenieftt, seinen starken Wagen voll 
ausfahren zu konnen?). Diedurch einen Wis- 
senschaftler angestrebte Explikation erzeugt 
in solchen Fallen erheblicheDissonanzen zwi- 
schen dem Ist-Sand derZieleund dem Selbst- 
bild des sich selbst als verantwortlich han- 
delnd sehenden Praktiker, was die Konsens- 
bzw. Kompromiftfahigkeitfordert. 



• «Aufwertung» von Projekten; ein Vorhaben in 
der ahule, im Betrieb und einer Kurklinik 
muft etwas «Besonderes» sein, wenn sich da- 
mit ein Wissenschaftler beschaftigt. Es wird 
damit gegenuber alltaglichen Kontroll- bzw. 
Evaluationsvorgangen auf eine hohere aufe 
gehoben, von der Verantwortlichkeit bzw. Be- 
treuung her meist auch hierarchisch hoher 
zugeordnet und damit bzgl. der Durch- 
fuhrungsmoglichkeit und der Beachtung der 
Ergebnisse aufgewertet. Als Beispiel: An einer 
ahule wird das Problem alkoholabhangiger 
ahuler virulent. Die mit der Beratung dieser 
Problemgruppe besonders beauftragten Leh- 
rer uberlegen drei verschiedene Vorgehens- 
weisen. Wenn sie diese Varianten schulintern 
mit dem Einsatz ihrer eigenen Arbeitszeit 
evaluieren, kann dies leicht von der ahul- 
leitung als «Flobby» dieser Kollegen interpre- 
tiert werden. Gelingt es, etwa einen Diplom- 
Psychologen einer benachbarten Erziehungs- 
beratungstelle dafur zu interessieren, wird 
mit Sicherheit der ahulleiter eingeschaltet, 
das Vorhaben ausfuhrlich auf einer Konferenz 
diskutiert und vi el leicht sogar zur Profilierung 
der ahule in der Offentlichkeit Oder gegen- 
uber der aadtverwaltung (da jetzt Dienst- 
stellen kooperieren musen) genutzt. Gelingt 
es sogar, einen angesehenen Universitats- 
professor fur dieses Projekt zu interessieren, 
besteht einegute Chance, daft sich darausein 
mit zusatzlichen Finanzmitteln gefordertes 
Projekt ergibt, viel leicht sogar ein Modell- 
versuch desentsprechenden Landes, viel leicht 
mit bundesweiter Verbreitung der aufgrund 
der Evaluationsergebnisseabgegebenen Emp- 
fehlungen. Eine solche Entwicklung kann 
selbst dann eintreten, wenn sich gegenuber 
dem ursprunglichen Vorhaben der Lehrer vor 
Ort weder in den Maftnahmen noch in den 
Evaluationsgesichtspunkten eine wesentliche 
Veran derung ergeben hatte. 

Man sol Ite solche an sich unsachlichen, sozial- 
psychologisch begrundeten Effekte nicht uber- 
bewerten, aber auch nicht gering achten - 
wahrscheinlich war es in vielen Fallen der 
Evaluationsvorhaben nur durch die von den 
Auftraggebern gewunschte Aufwertung des Pro- 
jektes mittels des Einsatzes von Wissenschaft- 
lern moglich, auch sachlich eine wesentlich 
Q u al i tatsstei geru n g zu erzi el en . 
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2.2.3 Alternativen zur 
wissenschaftsgestutzten Evaluation 

Auf wissenschaftliche Evaluation wird immer 
verzichtet werden, wenn entweder uberhaupt 
die Moglichkeit dazu nicht gesehen Oder 
akzeptiert wird (vgl. die Ausfuhrungen zu den 
psychologischen Erfordernissen) Oder der er- 
wartete Nutzen aus den damit erzielten Infor- 
mationen geringer ist als die durch das Projekt 
verursachten Kosten. Eine solche Situation 
kann zum Beispiel entstehen, wenn sich die 
verschiedenen Verhaltensalternativen nur ge- 
ringfugig unterscheiden, dasEvaluationsprojekt 
aber auRerordentlich aufwendig ware. Bei sozi- 
alwissenschaftlich relevanten Problemstellun- 
gen ist es haufig der Zeitdruck, durch sich 
schnell andernde Rahmenbedingungen, der 
unter Nutzen aspekten eine wissenschaftliche 
(und damit meiRt langerandauernde) Evaluati- 
on nicht zweckmaRig erscheinen laRt. 

Die Hauptursachen fur den Verzicht auf Wis- 
senschaft auch in Situationen, in denen diese 
sachlich durchaus angemessen ware, sind ver- 
mutlich in einerbesonderen Betonung von «le- 
galistischen» (oder burokratischen) Positionen 
und einer Uberschatzung nicht-wissenschaftli- 
cher Evaluationsansatzezu sehen. 



Legalistische Position 

Diese Auffassung konnte man verkurzt mit 
«eine rechtmaRig zustandegekommene Rege- 
lung hat befolgt und nicht in Zweifel gezogen 
zu werden » charakterisieren. Geht man davon 
aus, muR sich Evaluation (wenn uberhaupt) auf 
das Feststellen des ordnungsgemaRen Zustan- 
dekommens beschranken, wozu man kaum 
wissenschaftliche Methoden benotigt. Diese 
Auffassung ist selbstverstandlich dem empi- 
risch-rational gepragten Denken fundamental 
entgegengesetzt, da es in der Wissenschaft ja 
gerade darauf ankommt, jede, auch noch so 
plausibel klingende, von Autoritaten verkun- 
dete und von der Wissenschaftsgemeinschaft 
konsensmaRig akzeptierte Hypothesen beim 
Auftreten von Zweifeln doch immer wiederaufs 
Neue zu uberprufen. Dies mag mit ein Grund 
sein, warum mache Wissenschaftler (und 
Evaluatoren) Schwierigkeiten haben, diejeweils 



geltenden burokratischen und nicht immer ra- 
tionalen Regeln anzunehmen und fur sich zu 
nutzen; ein wichtiger Aspekt bei der Koopera- 
tion mit Auftraggebern aus GroRorganisatio- 
nen, nicht nur der Offentlichen Hand. 

Auf den ersten Blick mag die hier verkurzt dar- 
gestel I te legalistische Position unsinnig wirken. 
Man muR sich aber vor Augen halten, daR sie 
eine fur das Funktionieren groRerer mensch- 
licher Gesellschaften vollig unverzichtbare 
Grundlage ist und von der abstrakten Struktur 
her gesehen eine Moglichkeit ist, das Problem 
der Zeitperspektive der Wirkungsketten von 
MaRnahmen (vgl. dazu die Diskussion zum 
ultimate criterion im Abschnitt 1.3) in sozial 
vertraglicher, uberwiegend konsensmaRiger 
Weise zu losen. In vielen Organ isationen 
(Rechtsprechung, Offentliche Verwaltung, Mi- 
I i tar, nicht mehr «personlich» uberschaubare 
Industrieunternehmen) sind Spielregeln erfor- 
derlich, deren Gultigkeit zum Zeitpunkt ihrer 
Anwendung hinzunehmen ist. Nur so ist eine 
Vermeidung von Willkur (etwa bei der Recht- 
sprechung), irrationaler Machtausubung (zum 
Beispiel im Verwaltungsbereich) Oder subjektiv 
ungleiche Behandlung von Betroffenen (etwa 
bei Gehaltsfindungen in der Wirtschaft) mog- 
lich. Durch ein fortlaufendes Infragestellen ei- 
ner ordnungsgemaR zustandegekommenen 
Anordnung ware nicht nur die Effektivitat der 
Gesamtorganisation gefahrdet, sondern auch 
die psychologische Akzeptanz von MaRnah- 
men erschwert. Man kann kaum von einem 
Betroffenen erwarten, daR er eine Gefangnis- 
strafe fur ein kriminelles Delikt innerlich an- 
nimmt, wenn dieses als Folge einer schnell 
wechselnden Rechtslagemanchmal strafbar, in 
anderen Zeitraumen aber straffrei ist. Beispiele 
dafur ist etwa diezu verschiedenen Zeiten Oder 
bei verschiedenen Staaten der europaischen 
Kulturgemeinschaft stark unterschiedliche 
rechtliche Bewertung von Wirtschaftsdelikten, 
Ehebruch, Gotteslasterung, Abtreibung Oder 
Pornographie. Das Nichthinterfragen von Re- 
geln, und damit automatisch der Verzicht auf 
eine Evaluation, kann ein gesellschaftlich rele- 
vanter Wert an sich sein. Die Abwagung zwi- 
schen jeweils ubertriebener und dadurch dys- 
funktionaler Starrheit versus Veranderbarkeit 
und Unsicherheit ist eine schwierige gesell- 
schaftliche Aufgabe. Man solltesich davorhu- 
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ten, aus einer verkurzten, rein naturwissen- 
schaftlich gepragten Sicht herausdiepositiven 
Aspekte legal istisch er Positionen vollig zu ne- 
gieren. 



Nicht-sozialwissenschaftliche Evaluation 

Diezweifelloshaufigste Bewertung von Verhal- 
tensweisen erfolgt durch «von selbst» an fallen - 
de, nicht zum Zwecke des gezielten Evalua- 
tion sprojektes erhobene Ruckmeldungen. Dies 
giltsowohl fur den Einzelnen (esgibtwohl nur 
wenige Psychologen, die zur personlichen 
Partnerauswahl wissenschaftliche Techniken, 
etwa Diagnose-lnstrumente wie zum Beispiel 
Tests, einsetzen) alsauch im gesellschaftlichen 
Bereich. Fur Politiker sind, global gesehen, 
Ruckmeldungen fiber die Presse, die Argumen- 
tation des Gegners Oder der Besuch von Wahl- 
kampf-Veranstaltungen viel entscheidendere 
Informationen als wissenschaftliche Evalua- 
tion sprojekte; Manager merken schnell die Re- 
aktion des Betriebsrates, des Marktes Oder der 
Konkurrenten. 

DerVorteil dieser Art von Ruckmeldung ist, ne- 
ben der Gewohnung, der geringe Kostenauf- 
wand und die subjektiv erlebte, manchesmal 
aber nur scheinbare Plausibilitat. 

Besonders wichtige Nachteilesind: 

• Verzerrung der Ruckmeldung durch unsyste- 
matische Auswahl (Presseberichte geben in 
keiner Weise immer ein representatives Bild 
der offentlichen Meinung, Umsatzsteigerun- 
gen konnen andere Ursachen haben als die 
spezielle Gestaltung einer Marked ngmaB- 
nahme) 

• Relativierung, im Extremfall sogar die Erset- 
zung gestaltender Ziele durch kurzfristige 
Ruckmeldung (Phanomen der «vorbeugen- 
den Selbstzensur» bei Berichten Oder Vor- 
schlagen, Verzicht auf langfristig sinnvolle 
MaBnahmen bei zunachst negativer Reak- 
tion der Offentlichkeit). 

• Vernachlassigung von Nebenwirkungen, die 
ohne vorhergehende Studien erst zu spat er- 
kennbar werden. 

• Unklare Definition des Gesamtnutzen seiner 
MaBnahme; da die unsystematische Ruck- 



meldung sich im allgemeinen auf jeneVaria- 
blen konzentriert, diefiirden fur die Innova- 
tion Verantwortlichen person I ich besonders 
wichtig sind, werden diese Aspekte uberbe- 
tont. Wissenschaftlich gestutzte Evaluation 
vermag es, starker die Vielfalt der Betroffen- 
heit deutlich zu machen und damit auf die 
Interessen zum Beispiel sozial wenig einflulS- 
reicher Gruppen hinzuweisen (was diefakti- 
sche Berucksichtigung auch dieser Punkte 
zumindest in demokratischen Gesellschaften 
als Folge der dadurch erleichterten bzw. erst 
ermoglichten offentlichen Diskussion er- 
hoht). 

DieGrundefur den Verzicht auf wissenschafts- 
gestutzte Evaluation sind oft «rational» uber- 
zeugend, und manchmal zumindest faktisch 
zwingend. Ebenso wiees unsinnig ware, diese 
spezielle Art der Ruckmeldung fiber Handlungs- 
folgen vollig auszuschlielSen, ware es auch 
falsch, die Forderung nach der wissenschaftli- 
chen Evaluation aller MaBnahmen durchsetzen 
zu wollen. Allerdings durfte derzeit eine we- 
sentliche Erweiterung des Einsatzes von Wis- 
senschaft auch im Interesse der Gesamt- 
gesellschaft zu begrulSen sein. 



2,2.4 Qualitatsmanagement nach 
Dl N-EN-ISO-9000 f f . 

Einen vollig anderen Ursprung als die sozial- 
wissenschaftlich orientierte Evaluation hat das 
vor allem aus der industriellen Produktion 
stammende Qualitatsmanagement. Zwar sind 
dieZielsetzungen identisch, esgeht immer dar- 
um, auf der Basis von empirisch feststellbaren 
Sachverhalten einen Vorgang zu bewerten 
(summativ) oderoptimalerzu gestalten (forma- 
tiv); als Folge der unterschiedlichen Wurzeln 
haben sich aber vollig verschiedeneterminolo- 
gische Gewohnheiten eingeburgert. So wurde 
eszum Beispiel dieQualitatskontrolleeinesPro- 
duktionsbetriebessehr merkwurdigempfinden, 
wenn man ihre Tatigkeit als «Ergebnis- 
evaluation» bezeichnen wurde. 

Fur die psychologisch bzw. sozialwissenschaft- 
lich begrundete Evaluation wird das Qualitats- 
management in den letzten Jahren dadurch be- 
sonders interessant, daB die ursprunglich fur 
die Produktion konzipierten Systemeauch auf 
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den Dienstleistungsbereich ubertragen werden 
(DIN-EN-ISO 9000ff./2 Deutsches I nstitut fur 
Normung e.V. 1997; Gumpp, 1996, Hering, 
1996, Brauer, 1997). 

FurdieMessungderim Dienstleistungsbereich 
erforderlichen empirischen Indikatoren sind im 
Gegensatzzurtechnischen Qualitatsprufung na- 
turlich «weiche» Aspekte, fur deren Messung 
und sachgerechte Interpretation entsprechend 
psychologisch Oder sozialwissenschaftlich be- 
grundeteMeRinstrumenteerforderlich sind, un- 
verzichtbar. Es zeichnet sich daher ab, daR ein 
erheblicher Teil der praktischen Evaluations- 
arbeit (wenn auch vermutlich nicht mit dieser 
Bezeichnung!) nach den Grundsatzen desQua- 
litatsmanagements fur Dienstleistungsorgani- 
sationen strukturiert werden wird. Tatsachlich 
durftediesin AnbetrachtderVielzahl derdamit 
verbundenen Fragestellungen im Wirtschafts- 
leben der quantitativ wichtigste Bereich von 
Evaluationsabeit werden, dies auch gerade vor 
dem Hintergrund desaktuell nicht sehr starken 
Strebensnach Reformprojekten mit der Notwen- 
digkeit entsprechend grower Evaluationsvor- 
haben im offentlichen Bereich. 

Die genauen Inhalte der ursprunglich von 
der International Standard Organization (ISO) 
entwickelten und dann von dem Deutschen In- 
stitut fur Normung (DIN) und in vielen ande- 
ren Staaten ubernommenen Norm durfen aus 
rechtlichen Grunden, im Gegensatzzu den Ge- 
wohnheiten im wissenschaftlichen Bereich, 
nicht ausfuhrlich zitiert werden. Vielesan die- 
sem Regelwerk, daR die Arbeit einer (Dienst- 
leistungs-) Organisation optimieren soil, betrifft 
auch Aspekte, die mit der Evaluation im enge- 
ren Sinne nichts zu tun haben (zum Beispiel 
Prinzipien der Verantwortungsdelegation, tei I- 
weise auch sehr stark an Verhaltenskontrolle 
orientierte, von vielen Nutzern als «burokra- 
tisch» erlebte Regelungen von Verfahrensab- 
laufen). Fur den potentiellen Beitrag von Eva- 
luation im Sinneder Sozialwissenschaften sind 
folgende Aspekte besonders wich tig: 

• Es muR eine klare Definition des in der 
Dienstleistungfurden Kunden zu erbringen- 
den Outputs geben (siehe dazu die Ausfuh- 
rungen im Abschnitt 2.1), die sich auf meR- 
bzw. beobachtbare Indikatoren stutzen muR. 

• DieAussagen fur dieseangestrebte Leistung 
durfen nicht unbestimmt often bleiben 



(zum Beispiel «hohe Erreichbarkeit unserer 
H otl i ne») sondern mussen mit exakten 
M indestgrenzwerten versehen werden, 
zum Beispiel «maximale Wartezeit 5 Minu- 
ten»). 

• Die Verbindung zwischen dem eigenen Ver- 
halten und dem fur den Kunden zugesagten 
Leistungen mussen alien an der Leistungs- 
erbringung Beteiligten bekannt sein (was 
insbesondere bei «weichen» Faktoren wie 
freundliches Verhalten, Akzeptanz von Kun- 
denwunschen Oder «anregende Kaufatmo- 
sphare» eine erhebliche Leistung bei der 
psychologischen Analyse der Bedingungs- 
faktoren dervom Kunden erlebten Leistungs- 
erbringung erfordert). 

• Die Uberprufung der erbrachten Leistung 
muR unmittelbar durch den Leistungs- 
erbringer, aber auch zusatzlich durch un- 
abhangiges (damit ist gemeint, daR keine 
unmittelbare Abhangigkeit vom Leistungs- 
erbringer Oder Lei stungsempf anger vorliegt) 
Personal festgestellt werden. 

• In regelmaRigen Abstanden (zum Beispiel 
einmal jahrlich) ist ein «Qualitatsaudit» 
durchzufuhren, bei dem diefestgestellten Er- 
gebnisse, ihreUrsachen und darauf aufbau- 
ende Optimierungsmoglichkeiten zu disku- 
tieren sind. 

Ein solchesQualitatsaudit ist naturlich von der 
Struktur her voll ig identisch mit der Diskussion 
von Evaluationsberichten, wenn man von eini- 
gen spezifischen (und durchaus fur eine 
Dienstleistungsorganisation sehr sinnvollen) 
Bestimmungen der hier nur sehr oberflachlich 
skizzierten ISO-Norm absieht. 

Richtig angewendet kann die Befolgung die- 
ser Norm fur Dienstleistungsorganisationen 
eine erhebliche und systematised von Jahr zu 
Jahr gesteigerte Qualitatsoptimierung mit sich 
bringen. Bedauerlich ist, daR es einer groReren 
Zahl von Unternehmen often si chtlich weniger 
darum geht, wirklich ih re Organisation zu op- 
timieren, sondern eher, das fur die AuRen- 
darstellung immer wichtiger werdende Zertifi- 
kat («zertifiziert nach ISO 9000!») zu erwerben, 
ohne wirklich relevanteVeranderungen durch- 
zufuhren. Die Grunde fur diese immer wieder 
f estzu stel I en d e Barri ere gegen u ber ei n er ech ten 
Struktur- Oder Verhaltensanderung durften 
ahnlich strukturiert sein wie die Widerstande 
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gegen Evaluation generell (siehe Abschnitt 
2.1.1). Es ist selbstverstandlich auch bei dieser 
Norm moglich, wie bei jedem auf dem Prinzip 
der Verhaltenskontrolle aufbauenden Regel- 
system, eine durchaus auch nachprufbare Ein- 
haltung der Vorschriften zu sichern, ohneden 
Output des Systems wirklich zu optimieren. 
DieseGebrauchs- bzw. M iRbrauchsmoglichkeit 
durfte die wichtigste Grundlage fur die auch 
starke Kritik an dieser Neuerung sein, bei der 
meist besonders der burokratische Aufwand 
hervorgehoben wird. 

EineReihesehr interessanter Beispielefurdie 
Anwendung der DIN EN ISO 9000 Norm fin- 
den sich im Bereich der Personalentwicklung 
(vgl. Dembski und Lorenz, 19969; Thom barsen, 
Laske Possler und Rasmussen, 1994; Albrecht, 
Pfitzinger und Vogel, 1995). 

Trotz d er u n tersch i ed I i ch en H erku n f t d er bei - 
den Konzepte (Evaluation im sozialwissen- 
schaftlichen Verstandnis einerseits und Qua- 
litatsmanagement andererseits) ist zu erwarten, 
daR esaufgrund der objektiven Ahnlichkeiten 
bzw. nahezu Identitaten zu einer Konvergenz 
dieser beiden Denkschienen, zumindest im 
Bereich der Dienstleistungsorganisationen, 
kommt. Bedauerlich ist, daR sich auch hiereine 
gewisseTendenz abzeichnet, dasdiedabei ent- 
stehenden neuen Aufgaben vorwiegend durch 
Personen abgedeckt werden, die keine im enge- 
ren Sinn psychologisch-sozialwissenschaftliche 
Ausbildung haben. Zumindest in der Anfangs- 
phase der Durchsetzung der ISO 9000 in 
Dienstleistungsorganisationen entstand der 
Eindruck, daR diese Form von «Evaluation» 
eher von Ingenieuren, Juristen Oder Betriebs- 
wirten gestaltet wird, als von den zumindest 
unter dem Aspekt der Ausbildung her dafur be- 
sonders qualifizierten Absolventen einschlagi- 
ger Studiengange. Voraussetzung fur die Nut- 
zung des spezifisch sozialwissenschaftlichen 
Know-hows in diesem Feld ist allerdings, daR 
man sich von in der humanwissenschaftlichen 
Grundlagenforschung idealen, aber fur die 
praktische Arbeit der Qualitatsoptimierung 
nicht brauchbaren Vorstellungen, insbesonde- 
re im Zusammenhang mit der Design- 
konstruktion, lost. Im Qualitatsmanagement 
werden praktische Losungsvorschlage gesucht, 
Bemuhungen zum elaborierten Aufzeigen von 
Kausalitaten, die zweifellos nur durch entspre- 
chende Designs zu erreichen sind, finden in 



diesem Feld nur bedingt Interesse (siehe dazu 
auch Abschnitt 5.2.2). 



2.3. Verfugbarkeit von 
Evaluatoren 

Das gesellschaftliche Bedurfnis nach sozialwis- 
senschaftlich gestutzter Evaluation kann trotz 
gegebener Sachkompetenz der Wissenschaft 
nurerful It werden, wenn ausreichend vieleund 
ausreichend qualifizierte Personen als«Evalua- 
toren» zur Verfugung stehen. In anderen Lan- 
dern, insbesondereden USA, ist dies in groRem 
AusmaRe der Fall. So schatzt man etwa, daR in 
den USA im Rechnungsjahr 1977 39 Ministe- 
rien und Behorden sowie unabhangige Insti- 
tutionen 243 Mio. Dollar fur die Evaluation von 
Sozial program men ausgaben. Davon wurden 
61 Mio. Dollar zur Bezahlung von etwa 2200 
vollberuflichen Mitarbeitern bei den Bundes- 
behorden verwendet, deren wesentliche Auf- 
gabe in Evaluationsarbeiten zu sehen ist. Ins- 
gesamt wurden aus den oben genannten 
Mitteln ca. 1300 Auftragsarbeiten finanziert 
(vgl. Freeman & Solomon, 1984, S. 134ff). 

Berucksichtigt man die unterschied lichen 
Bevolkerungszahlen, so muRte in der Bundes- 
republik Deutschland fur den vergleichbaren 
Ausbau von Evaluation etwa ein Viertel der in 
den USA beschaftigten Evaluatoren benotigt 
werden, eine Zahl, von der die derzeitigen 
Verhaltnisse (Details dazu sind leider nicht 
bekannt) sicher bei weitem abweichen. Man 
sieht daran, welcher groRe potentielle Bedarf 
an Evaluatoren in einer modernen Industrie- 
gesellschaft bestehen kann. Allerdings muR 
man berucksichtigen, daR die USA im Gegen- 
satz zu den meisten europaischen Landern 
keine ausgepragte Tradition mit Flerrschafts- 
formen desaufgeklarten Absolutismusoder an- 
derer autoritarer Staatsformen hat, so daR eine 
wesentliche Grundlage fur das Dominieren der 
«legalistischen Position» (vgl. Abschnitt 2.2.3) 
fur die Rechtfertigung bzw. Bewertung offent- 
licher MaRnahmen fehlt. Ein weiterer Grund 
fur den Unterschied mag darin liegen, daR die 
groRen politischen Parteien in den USA weni- 
ger Unterschiede zueinander zeigen als in Eu- 
ropa. Ideologische Wurzeln fur Parteipraferen- 
zen fehlen fast vollig, und auch die zum 
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Beispiel in der Bundesrepublik Deutschland 
nicht unerhebliche Tendenz von Politikern, 
zumindest die offentlich geaufterte personli- 
che Meinung mit der «off i zi el I en » Partei- 
meinung abzustimmen, ist in den USA zumin- 
dest wesentlich schwacher. Dieser starker 
pragmatische, weniger parteibezogeneUmgang 
mit Problemen fordert das Interesse an empi- 
rischer Evaluation und die praktische Anwen- 
dung der Ergebnisse. Trotzdem durfte in der 
Bundesrepublik ein quantitativ erhebliches 
Defizit an Evaluatoren bestehen, worauf sich 
zumindest mittel- bzw. langfristig eine gun- 
stige Prognose fur diesen Teilarbeitsmarkt grun- 
det. Diese Hoffnung wird verstarkt durch die 
in den letzten Jahren deutlich gewordeneTen- 
denz einer «Entideologisierung» der Politik 
auch in Deutschland und der zunehmenden 
Betonung der Outputkontrolle als Grundlage 
der Systemsteuerung auch im offentlichen 
Bereich. 

Die Nachfrage nach Evaluation ist aber auch 
abhangig von der Verfugbarkeit ausreichend 
kompetenter Evaluatoren. Entsprechend gezielte 
Aus- und Weiterbildungsprogrammefehlen (im 
Gegensatz zu den USA) in der Bundesrepublik 
Deutschland so gut wie vollig, selbst Spezia- 
lisierungen innerhalb des normalen Diplom- 
Studienganges werden kaum angeboten und 
die Arbeitsbedingungen der meisten Evalua- 
toren sind zumindest in Anbetracht der derzei- 
tigen Marktlage mit so vielen Unsicherheiten 
behaftet, daft sie fur besonders kompetente, 
Eigen initiative entwickelnde Absolventen in 
Anbetracht der fur diese Personengruppe be- 
stehenden anderweitigen Berufsmoglichkeiten 
nur wenig attraktiv sind. Die mangelnde Ver- 
fugbarkeit besondersqualifizierter Bewerber re- 
duziert ihrerseits wiederum die fur Evaluatoren 
geschaffenen Arbeitsmdglichkeiten. Es bleibt 
zu hoffen, daft Anderungen der Studien- 
ordnungen (vgl. etwa die Rahmenprufungs- 
ordnung fur das Diplomstudium Psychologie 
vom 20. Mai 1983 mit der Einrichtung eines 
Pflichtfaches «Evaluation und Forschungs- 
methodik» im Hauptdiplom), Verlagerung der 
Studenteninteressen und eine gleichzeitig hof- 
fentlich zunehmende Nachfrage nach Eva- 
luationskompetenz hier eine Verbesserung be- 
wirken. 

In den nachsten drei Abschnitten wird zu- 
nachst ein Uberblick uber die Vielfalt der «Rol- 



I en » des Eval uators gegeben , d i e Rah men bed i n- 
gungen (auch in rechtlicher Hinsicht) von 
eval u atori sch er Tat i gkei t ski zzi ert u n d absch I i e- 
ftend darauf aufbauend versucht, die fur eine 
erfol grei ch e u n d zuf ri eden stel I en de Beruf stati g- 
keit in diesem Bereich erforderlichen Kompe- 
tenzen und Personlichkeitseigenschaften zu 
skizzieren. Dieser letzte Abschnitt verfolgt das 
Ziel, die personliche Entscheidung fur eine 
eventuel I e Tatigkeit in diesem Bereich ein we- 
nig zu versach lichen. 



2.3.1. Rol lenvielf a It des Evaluators 

Die wichtigsten abgrenzbaren Funktionen ei- 
nes Evaluators sind auf der Basis des allgemei- 
nen FlandlungsrnodellsausDiagramm 1/2 in Dia- 
gramm n/5 strukturiert zusammengefaftt. Die 
Darstellung macht vielleicht deutlich, daft die- 
ses Beruf sfel dsichereinesehr abwech si u n gsrei - 
cheTatigkeit bietet, gleichzeitig aber auch hohe 
und zum Teil kontrareAnforderungen stel It. So 
muft etwa der Evaluator als «summativer 
Bewerter» seine eigene Meinung und Person- 
lichkeit gegenuber dem Auftrag und der Sach- 
lage soweit wie nur irgend moglich zuruck- 
nehmen. Als «lnformationsbeschaffer» das 
Instrumentarium gemaft seiner ei gen en Auffas- 
sung gestalten und seine moglichst optimale 
Anwendung im Feld auch gegen Widerstande 
durchsetzen. Als«formativ Flelfender» ist er der 
Ratgeber, der unterschiedliche Gestaltungsvor- 
schlage und Interessen vermittelnd zu einem 
Konsensfuhrt. Da sich ailed rei Rollen im Rah- 
men desselben Projektesergeben konnen, muft 
man i.A. Langeweile nicht befurchten. Aller- 
dings stel It sich die Frage, wie man eine ent- 
sprechende Rol lenfl exi bi I itat erwerben soil, 
solange eine entsprechende Person I ichkeits- 
entwicklung etwa im Rahmen von post- 
gradualen Bildungsgangen Oder sorgfaltig 
supervisierter Beruf serfah rung kaum unter- 
stutzt wird. 



2.3.2 Rechtliche Rahmenbedingun- 
gen von evaluatorischer Tatigkeit 

Vorweg muft erklart werden, welche Rechts- 
beziehungen in dem Feld evaluatorischer Ta- 
tigkeit uberhaupt relevant sein konne. Eine 
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Ubersicht uber haufige Beschaftigungsverhalt- 
nissefur Evaluatoren stellt Diagramm 11 / 6 dar. 

Innerhalb der Dienstleitungen im Sinne des 
§611 BGB (Burgerliches Gesetzbuch) sind zwei 
Fallezu unterscheiden: 

• Dienstlei stun gen desselbstandigTatigen; 

• Arbeitsleistungen des (unselbstandigen) Ar- 
beitnehmers. 

Im ersten Fall ist der Evaluator selbstandig, lei- 
tet zum Beispiel ein eigenes I nstitut. Im zwei- 
ten Fall ist der Evaluator abhangig beschaftigt. 
Laut Rechtsprechung des BAG (Bundesarbeits- 



gericht) und BGFI (Bundesgerichtshof) istdabei 
auf bestimmte Indizien abzustellen wie Wei- 
sungsgebundenheit, Art der Entlohnung, Ab- 
fuhrung von Lohnsteuer und Sozialversiche- 
rungsbeitragen. Der Evaluator alsArbeitnehmer 
schuldet dem Dienstberechtigten seine ganze 
Arbeitskraft. 

Vert rags moglichkeiten 

Bezuglich der rechtlichen Beziehungen zwi- 
schen Auftraggeber und Evaluatoren sind fol- 
gende Bedingungen typisch: 



Diagramm 11/ 5 

Funktion des Evaluators auf der Basis des Flandlungsmodells 


Flandlungsmodell 


Funktionen des Evaluators 


Besondere Aspekte fur 
den Berufsanfanger 


Situation 

1 






Person 

1 






ZIELE 

1 

Bestan dtei 1 e ei n er Zi el h i erarch i e 


Evaluator hilft bei derZiel- 
explikation 


Gute Fachkenntnisse, spezielle 
Ken ntnisse uber das Evaluations- 
objekt und dessen Kontext- 
bedingungen 


1ST SOLI. 

DISKREPANZ 


Evaluator berat hinsichtlich der 
Realitatsnaheder Maknahmen 
und gibt Anregungen fur den 
Handlungsbedarf 


Verwal tu n gstech n i sch Morgan i sa- 
torischeKenntnisse, praktische 
erfahrungen aul5erhalb der 
Wissenschaftsgemeinde, soziale 
Kompetenz 


Handlungsplane 
hi erarch isch organ i si ert 

HI H2 H3 H4 etc. 


Evaluator unterstutzt bei der 
Erweiterung der gesehenen 
Handlungsmoglichkeiten 


Erfahrungen hinsichtlich der 
1 nstrumente aus der Grundlagen- 
forschung, Ken ntnisse aus dem 
Projektmanagement, umfassende 
Methodenkenntnisse, praktische 
Erfahrung 


Bewertung der Handlungs- 
alternativen (z.B. unterdem 
Kosten-N utzen-Aspekt 


Evaluator setzt Kommunika- 
tionstechniken ein 


Fertigkeiten in Prasentation, 
Moderation, Berichtlegung, 
sozialpsychologischen Techniken 


Handlungsausfuhrung 

1 t 

Ausfuhrungskontrolle 


Evaluator hilft und berat bei der 
Ausfuhrung der MalSnahmen 


Praktische Erfahrungen, gute 
f ach spezifischeKenntnisse, 
organisatorische Kompetenzen 


Ergebnisse 

1 

Folgen 


Evaluator ist zustandig fur die 
applizierte Methodik, fur die 
Auswertung und die Nutzen- 
messung 


umfassende Methodenkenntnisse, 
gute fach spezif i sch e Ken n tn i sse, 
spezifischesWissen uber das 
Evaluationsobjekt und dessen 
Kontextbedingungen 


Folgen bewertung 


Evaluator wendet sozial- 
technischeMethoden an 


Soziale Kompetenz, Kenntnisse 
uber sozialpsychologische 
Techniken 
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• Der Dienstvertrag: 

Fur den Evaluator als unselbstandigen Arbeit- 
nehmergelten diePflichten, diesich auseinem 
abgeschlossenen Dienstvertrag ergeben (vgl. 

Diagramm 11/ 7). 

Probleme aus den Verpflichtungen als abhan- 
gig Beschaftigte konnen sich in einer Vielzahl 
von Punkten der praktischen Evaluationsarbeit 
ergeben. Besonders naheliegend sind solche 
Schwierigkeiten bei innerer bzw. Selbst-Evalua- 
tion, wenn also der Arbeitgebergleichzeitigjene 
Institution ist, deren Leistung evaluiert werden 
soil. In einem solchen Fall kann es etwa sein, 
dalS der Arbeitgeber sein Weisungsrecht dahin- 
gehend ausubt, daft bestimmte Aspekte (von 
denen zum Beispiel negative Bewertun gen aus- 
gehen konnten) im Rahmen der Evaluation 
ganz einfach nicht berucksichtigt werden dur- 
fen, obwohl der Evaluator dies aus seiner Scht 
heraus fur erforderlich halt. Geschieht dies 
trotzdem, zum Beispiel unter Ausnutzung einer 
nicht zu starken Kontrolleder Evaluationsarbeit 
durch den Vorgesetzten und werden dazu auch 
M itarbeiterdurch den Evaluator motiviert, liegt 
eine Verleitung zum Vertragsbruch vor. Auch 
die Verschwiegenheitspflicht kann Konflikte 
auslosen, zum Beispiel dann, wenn dieAuftrag- 
geber der Institution bestimmte Ergebnisse 
nicht beri chtet Oder gar pu bl iziert h aben moch - 
ten (bei privaten Unternehmen ware dies wohl 
im Regelfall vollig unproblematisch, bei offent- 
lichen Arbeitgebern mit einer anderen Ver- 



pflichtung zur objektiven Information nach 
auften konnen sich zu diesem Punkt aber 
d u rch aus erh ebl i ch e Konf I i kte zwi sch en Arbei t- 
geber und Evaluator ergeben). Ebenso wie in 
anderen Feldern mitentscheidungsvorbereiten- 
den Arbeiten (zum Beispiel in der psycholo- 
gischen Diagnostik) kann sich auch in 
Evaluationsmaftnahmen das Problem des An- 
gebots von Schmiergeldern ergeben, zum Bei- 
spiel dann, wenn aufgrund der Evaluations- 
ergebnisse zwischen verschiedenen Anbietern, 
Bildungstragern Oder auch einzelnen Dozenten, 
projektdurchfuhrende Institutionen im Ge- 
sundheitswesen etc.) ausgewah It werden sollen 
und dieBetroffenen ein hoheslnteressehaben, 
diefraglichen Auftrage (weiter) zu erhalten. 

• Der Werkvertrag: 

Die Evaluation kann auch in Form einesWerk- 
vertrages erfolgen. Damit wird kein Arbeits- 
verhaltnis zwischen einer Institution (sog. 
Werkvertragsgeber) und dem Evaluator (sog. 
Werkvertragsnehmer) begrundet, sondern im 
wechselseitigen Einvernehmen die Erbringung 
einer naher zu beschreibenden Leistung fur 
eine bestimmte Vergutung vereinbart (§§631, 
63 BGB). Uber diese Leistung hinaus konnen 
weitere Vereinbarungen (vgl. Diagramm n/8) ge- 
troffen werden. 

Der Werkvertrag ist die haufigste rechtliche 
Grundlage fur selbstandig arbeitende Evalua- 
toren. Fur grolSereProjekte werden diese furdie 



Diagramm 11/ 6 

Ha uf i ge Beschaftigungsverhaltnisse fur Evaluatoren unter rechtlichen Aspekten 




Dienstleistung 




zivilrechtlich offentlich-rechtlich 




Dienstvertrag 


Werkvertrag 


Auftrag 


§611 BGB 


§631 BGB 


§662 BGB 


Selbstandiger 


un selbstandiger Arbeitnehmer 
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Diagramm 11/ 7 
Der Dienstvertrag 


Grundlagen 

Der Evaluator ist unselbstandiger Arbeitnehmer einer Institution (z.B. 1 nstitut, Beratungsgesell- 
schaft etc. ). Moglich ist auch, daft er jener Institution angehort, deren Arbeit zu evaluieren ist 
(z.B. Klinik, Schule, Staatsi nstitut, Unternehmen ...) 

Aus der Eigenschaft als Arbeitnehmer ergeben sich u.a. folgende Pflichten 


H autpfl i chten 


Neben pflichten 


Leistung der versprochenen Dienste 
§611 BGB 

Die Arbei tslei stung ist personlich zu 
erfullen 

Esbestehtein Direktionsrecht durch den 
Arbeitgeber mit Befolgungspflicht des 
Arbeitnehmers§315 BGB 


Gehorsamspflicht§121 GO. 

Treuepflicht §242 BGB 
kein Wettbewerb 

keineVerleitung anderer Arbeitnehmer 
zum Vertragsbruch 

keineAnnahme von Bestechungsgeldern 
Anzeige drohender Schaden 
Verschwiegenheit 


Durchfuhrungderanfallenden Arbeiten entwe- 
der selbst als Arbeitgeber Mitarbeiter in ein Ar- 
beitsverhaltnis nehmen, Oder wiederum nach- 
geordnete Werkvertrage absch 1 ieften . 

Ein besonderes Problem kann sich auch aus 
derTatsache ergeben, daft vi el e Evaluation svor- 
haben zeitlich befri stet sind. Binnen einesvor- 
herfestgelegten Zeitraumesmuft einebestimm- 


werden braucht (zum Beispiel Aushilfstatig- 
keiten, Saisonarbeit). 

Eine flexiblere Gestaltung dieser Arbeitsver- 
haltnisse erfolgte durch das Beschaftigungs- 
forderungsgesetz (BeschFG 1985) und den spa- 
ter aktuellen Bestimmungen, die es leichter 
machen, befristete Vertrageauszustellen. 

Nach RechtsprechungdesBAG konnen auch 



te Leistung erbracht werden, danach gibt es 
(eventuell weder fur den selbstandigen Eva- 
luator noch fur die von ihm beschaftigten Mit- 
arbeiter) weitere Auftrage und damit auch kei- 
ne weiteren Einnahmen. Aus diesem Grund 
wird haufig gerade von selbstandig tatigen 
Evaluatoren versucht, nur befristete Arbei tsver- 
tragemit Mitarbeitern abzuschlieften, wobei ei- 
nige rechtliche Besonderheiten zu beach ten 
sind. 



mehrere hintereinandergeschaltete befristete 
Arbeitsvertrage, sog. Ketten arbeitsvertrage, zu- 
lassigsein. In der Praxishatsich gezeigt, daftje 
ofter das Arbeitsverhaltnis verlangert wird, um 
so deutlicher wird, daft die Befristung sachlich 
nicht gerechtfertigt war. 

Wurde ein Arbeitnehmer (Evaluator) zu einer 
ganz bestimmten Aufgabeeingestellt, diesaber 
innerhalb der vereinbarten Frist nicht erledigt 
werden konnte, so ist eine neue Befristung zu- 
lassig. 



• D er befri stete A rbei tsvertra g 

Normalerweise sind Arbeitsvertrage unbefristet 
und unterliegen den normalen Kundigungsvor- 
schriften. Siekonnen mitAusnahmen formlos 
und mundlich abgeschlossen werden. Der be- 
fristete Arbeitsvertrag stellt ein Arbeitsverhalt- 
nis auf Zeit dar. Dieses Arbeitsverhaltnis endet 
durch Zeitablauf, ohne daft es gekundigt zu 



Ein anderer Fall liegt vor. wenn vorhersehbar, 
war, wie langeZeit dieArbeit in Anspruch neh- 
men wird. Der Arbeitgeber muft bei Ablauf des 
ersten befri steten Arbei tsverhaltnisses, wenn er 
sich getauscht hat und den Arbeitnehmer wei- 
ter beschaftigen will, ein den normalen Kun- 
d i gu n gsvorsch ri ften u n terl i egen des Arbei tsver- 
haltnisabschlieften. 
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Diagramm 11/ 8 
Der Werkvertrag 



Grundlagen 

Eine Institution (Werkvertraggeber) schlieBt mit einem Evaluator (Werkvertragnehmer) einen 
Vertrag. 



Bedingungen der Vertragsgestaltung 

konsensmaBige Vereinbarung zwischen den 
Parteien 

Beschreibung des zu erstellenden «Werkes» 
(z.B. Herstellung einer Sache, eines Berichtes, 
dieDurchfuhrung einer Veranstal tun g ...) 

Verpflichtung des Werkvertragnehmers, ein 
bestimmtes Ergebnis(i.w. Sinn) zu erbringen 

Zusatzvereinbarungen sind moglich, z. B. 

• Leistungsmodalitaten 

• Vertraulichkeitsregelungen 

• Folgen von Vertragsverletzungen (z.B. Kon- 
ventionalstrafen bei Terminuberschreitun- 
gen etc.) 



Verfahren bei auftgetretenen Mangeln 

Haftung des Werkvertragsnehmers 

Verpflichtung zur Nachbesserung (Neuerstel- 
lung Oder Beseitung des Fehlers) 

Bei Verzug Oder volliger Zerstorung des Ver- 
trauensverhaltnis ist die Mangelbeseitigung 
durch Dritte (z.B. anderer Evaluator) auf Ko- 
sten des Werkvertragnehmers moglich 

Die Verpflichtung zur Neuerstellung erlischt 
mit der off i zi el I en AbnahmedesWerkesdurch 
den Wervertraggeber 



JedesBeschaftigungs- bzw. Auftragsverhaltnis 
begrundet naturgemaB einegewisseAbhangig- 
keit des Evaluators vom Auftraggeber. Es ist 
schwer zu sagen, welche Variante in besonde- 
rer Weise dazu fuhren kann, die Evaluations- 
ergebnisse im «gewunschten» Sinne zu beein- 
flussen. Ist der Arbeitgeber selbst gleichzeitig 
der Adressat der Evaluationsergebnisse, hat er 
naturlich die Moglichkeit, die Verbreitung der 
Resultate in einem groBeren Rahmen zu ver- 
bieten Oder bestimmte Gestaltungsvorschlage 
des Evaluators fur sein Projekt zu untersagen 
(so halt sich in manchen Wissenschaftler- 
kreisen etwa hartnackig des Gerucht, daB die 
unmittelbar der Flierarchie der staatlichen Ad- 
ministration unterstellten «Staatsinstitute» in 
manchen Falle dazu neigen, ihre Mitarbeiter 
daran zu hindern, alles zu publizieren, was 
diese gerne veroffentlichen wurden). Dies mag 
sein, doch sollte man sich uberlegen, ob die 
finanzielle Abhangigkeit eines freiberuflich ta- 
tigen Auftragnehmers (oder eines sich entspre- 



chend durch Auftragefinanzierenden I nstituts) 
nicht mindestens ebenso groBe EinfluBmog- 
lichkeiten schafft - schlieBlich ist es(besonders 
fur Arbeitgeber des offentlichen Dienstes) um 
vieles leichter, einen neuen Auftrag an einen 
Konkurrenten der Partner zu vergeben, als ei- 
nen «unbequemen» Mitarbeiter zu kundigen. 
Bei den an einem Evaluation betreibenden (So- 
zial-) Forschungsinstitut abhangig Beschaftig- 
ten kumulieren moglicherweise beide Kompo- 
nenten. Am geringsten istvielleichtdieGefahr 
einer unsachgerechten EinfluBnahme durch 
den Auftraggeber in den Fallen, in denen 
Evaluatoren ohne starke finanzielle Abhangig- 
keit (etwa in Form einer Nebentatigkeit neben 
einem Flauptamt) arbeiten, doch kann man na- 
turlich gerade in diesen Fallen kaum von ei- 
nem «Berufsfeld» Evaluation sprechen. 

Die Ausfuhrungen bzw. Zitate in den Diagram- 
men n/ 7 und 11/ 8 durfen nur alsein Flinweisauf 
bestehende Regelungen aufgefaBt werden, sie 
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genugen in keiner Weise, um sich selbst ein 
«gerichtsfestes» Bild uber die Rechtslage in ei- 
nem konkreten Fall zu machen. Sofern der Ar- 
beit- bzw. Auftraggeber dem offentlichen Dienst 
zuzuordnen ist, werden im Normalfall die 
Rechtsfragen standardmaRig und in einer fur 
beideSeiten halbwegsfairen Weise geregelt. Bei 
privaten Arbeitgebern und ganz besonders bei 
der Ubernahme von Projekten in Form von 
Werkvertragen empfiehltessich fur den Berufs- 
anfangerdringend, sich durch einen Fachmann 
in den Rechtsfragen beraten zu lassen. Aller- 
dingssind gerade fur diese Personengruppedie 
Moglichkeiten, eine fur sie personlich eher 
ungunstige Vertragsregelung zu andern, relativ 
beschrankt, da die Alternative u.U. nurdieAb- 
lehnung desArbeitsverhaltnissesbzw. desAuf- 
trages sein kann. Man sollte aber zumindest 
wissen, welche Sicherheiten, Verpflichtungen 
und moglich Folgeproblememiteinem entspre- 
chenden VertragsabschluR verbunden sind. 

Im ubrigen geben die sehr umfassenden 
Schriften des Bundesministers fur Arbeit und 
Sozialordnung einen ersten Uberblick uber die 
verschiedenen Rechtsverhaltnisse im Arbeitsle- 
ben (vgl. Halbach u.a., 1987). 



2.3.3 Personliche Voraussetzungen 

Fachliches Konnen 

Am einfachsten laRt sich diese Frage fur die 
erforderlichen fachlichen Kenntnisse ein es Be- 
rufsanfangers klaren, der unter der Verantwor- 
tung einer erfahrenen Kraft an Evaluations- 
projekten mitarbeitet. Im allgemeinen wird es 
genugen, wenn 

• ein abgeschlossenes empirisch orientiertes 
psychologisches bzw. sozialwissenschaftli- 
ch esStudium 

• gute Meth oden kenntnisse (auch, aber nicht 
nurStatistikund EDV) 

• eine gute Allgemeinbildung im jeweiligen 
Evaluationsfeld (etwa Wirtschaft, Schule, Ge- 
sundheitswesen etc.) 

gegeben sind. Allejeweilserforderlichen, spezi- 
fischen Fach kenntnisse lassen sich, entspre- 
chendes Verstandnis und Unterstutzung durch 
den Arbeitgeber vorausgesetzt, «on thejob» er- 
werben . 



Personlichkeit, Interessen, Motivation 

Viel schwieriger ist es, zu uberlegen, ob ein be- 
stimmter Berufsan fan ger auch in dieses Feld ge- 
hen sollte, also ob seine Motivation, sein 
Interessensprofil und die personliche Ent- 
wicklungserwartung besonders gut zu einer sol- 
chen Tatigkeit paRt. Meist wird der spatere be- 
rufliche Werdegang zu einer Spezialisierung 
auf ei n e Oder ei n i ge wen i ge der typi sch en «Rol - 
len» des Evaluators (vgl. Diagramm ll/5) fuhren, 
dienaturlich jeweilsandereuberfachlicheKom- 
petenzen erfordern. Gemeinsam sind aber zu- 
mindest den meisten dieser Entwicklungs- 
moglichkeiten hohe Anforderungen in 
folgenden Dimensionen: 

• Leistungsmotivation; der Evaluator hat kaum 
unmittelbare Macht, und auch seine An- 
schluRmotivation sollte(wegen derNeutrali- 
tat gegenuber konkurrierenden Gruppen) 
n i ch t al I zu stark ausgepragt sei n . 

• Kommunikationsfahigkeit; dies betrifft sowohl 
ei n e sch wer veran d erbare person I i ch e D i spo- 
sition, am Kontakt mit anderen Menschen 
SpaR zu haben, als auch die Beherrschung 
entsprechender Gesprachs- und Gruppen- 
moderationstechn i ken . 

• Fahigkeit zum role-taking; die gedankliche 
Ubernahme der Welt- und Problemsicht 
verschiedenster Gruppen ist oft die Voraus- 
setzung, um eine alien Beteiligten bzw. Be- 
troffenen annahernd gerecht werdende Pro- 
jektplanung durchfuhren zu konnen und 
(unbewuRte) Einseitigkeiten, etwa bei der 
Auswahl von Bewertungskriterien, zu ver- 
meiden. 

Fur die eigene Lebensplanung sollte man be- 
achten, daR besondere Detailkenntnisse Oder 
die Beherrschung von Techniken (zum Beispiel 
bei der Konstruktion von MeRinstrumenten, 
der Design planung Oder der Datenauswertung) 
nur in den ersten Berufsjahren im Mittelpunkt 
der Evaluationstatigkeit stehen, zumindest im 
Allgemeinen. 

Mit zunehmender Erfahrung und damit ver- 
bundenem hierarchischen Aufstieg verschiebt 
sich das Anforderungsspektrum eher weg vom 
engen fachlichen Bereich hin zu auRerfach lichen 
Kompetenzen wie Strategienentwicklung, Fuh- 
rung und andere Sozial kompetenzen. Allerdings 
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gibt es derzeit fur Evaluatoren in dieser Rolle 
kaum beruflicheAufstiegsmoglichkeiten, am ehe- 
sten noch durch Ubemahmeder Geschaftsfuh- 
rungeinesmit Evaluationsprojekten befaRten In- 
stituts (solche selbstandigen Existenzen Oder 
kleinen InstitutegabesAnfangdersiebzigerJahre 
sehrviele, alsFolgeder massivzunehmenden Auf- 
trage der offentlichen Hand fur Evaluations- 
vorhaben, die meisten davon uberlebten aber 
nicht die Konsolidierungsphase der offentlichen 



Haushalte; in den USA zeigtesich eineahnliche 
Entwicklung). Der Normalfall ist, dalS Evaluatoren 
in ihrem Karri ereverlauf Fuhrungspositionen in 
Wi rtschaft, Verwaltun g Oder Wi ssen sch aft an stre- 
ben und dem engeren Berufsfeld verlorengehen. 
Darin liegt einerseitseine Chance fur interessier- 
ten Nachwuchs durch das Freiwerden entspre- 
chender Positionen, andererseits ein nicht uner- 
heblicher Verlust an gewonnener Erfahrung und 
berufsfeldspezifischer Kompetenz. 



Ubersicht Kapitel 2: 
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Voraussetzungen fur Evaluationsprojekte 

Ziele, diemit psychologischen Oder Nutzen des Evaluationsprojektes 
sozialwi ssen sch aftlichen muE erwartete Kosten ubersteigen 

Evaluationsmethoden erreicht 
werden konnen 

2.1 

Zielsetzungen bei Evaluationsvorhaben 

Grundlagen der Akzeptanz von Evaluation 

Psychologische Voraussetzungen fur die Entwicklung von Evaluation 



Akzeptanz der Veranderbarkeit 
relevanter gesellschaftlicher 
Strukturen u. Gestaltung gesell- 
schaftlicher Verhaltnisse unter 
rationalen Optimierungsaspekten 

Einteilung der Evaluationsformen 
nach 

• Rahmenbedingungen 

• GrundsatzlicheZielorientierung 

• Zeitperspektive 

• Nutzen u berlegung 

• Bearbeitungsformen 

• Erfahrungsaufbereitung 



Bereitschaft, sich zu Zwecken der 
Verbesserung des bestehenden 
Verhaltens(«H often auf Erfolg») 
dem Risiko des Scheiterns («Furcht 
vor M iRerfolg») auszusetzen 



Vorhandensein von Evaluatoren 
und anderen notwendigen 
Ressourcen 



Bereitschaft der Entscheidungs- 
tragerzur Akzeptanz von Fakten 

MoglicheNutzenerwartungendes 

Auftraggebers 

• Bewertung ohnedetaillierte 
Zielsetzung 

• Verantwortungsdelegation 

• Durchsetzungs-/Entscheidungs- 
hilfe 

• Optimierungsgrundlage 
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2.2 

Wissenschaft als mogliche Grundlage von Evaluation 

Grundvorau ssetz u n gen 



Bereitschaft, an praxisorientierten 
Evaluationen teilzuhaben 



Evaluation als besondere Form des 

wissenschaftlich-empirischen 

Arbeitens 



MoglicheAlternativen zu 
wissenschaftsgestutzter Evaluation 
Verzicht auf Evaluation 
Legal istische Position 
N i ch t-sozi al wi ssen sch aftl i ch e 
Evaluation 



Wi ssen sch aftl icher Beitrag muB 
mehrNutzen alsKosten bringen 



Potenti el I e Sach beitrage der 
Wissenschaft 

Psychologischeu. sozialwissen- 
schaftlicheTheorien, Methoden, 

I nterventi onstech n i ken 
Vertrautheit mit wi ssen sch aftl ichen 
Paradigmen 



Wi ssen sch aftl iche Evaluation sollte 
den nicht-wissenschaftlichen 
Alternativen uberlegen sein 



Zusatznutzen wissenschaftlicher 
Evaluation 

Neutrality der Wissenschaft 
Fachubergreifende Kompetenzzu- 
schreibung, weitgehende Explikati- 
on von Begrundungen, Aufwertung 
von Projekten 

Qualitatsmanagement als Evaluation 
mitWurzel ausder industriellen 
Produktion 

Zielsetzung der beiden Formen 
identisch sieheDIN EN ISO 9000ff. 



Entscheidungsorientierte Forschung SchluRfolgeorientierte Forschung 
Evaluation Wi ssen sch aftl iche Forschung 

Konsequenz 

Rollenverstandnis des Evaluators steht teilweise im Widerspruch zu den 
Anspruchen der Wi ssen sch aftl ichen Forschung 

I 

Wissenschaft als Basis und H ilfefur die Evaluationsarbeit 



2.3 

Verfugbarkeit von Evaluatoren 

Problem 

Grower potentieller Bedarf an Evaluatoren sowie an Aus- und Weiterbildungsprogrammen konnte bisher 
noch nicht gedeckt werden 



Rollenvielfalt des Evaluators ergibt sich aus dem 
groGen Aufgabenfeld vgl. Diagr. 11/5 
Rollenkonflikte entstehen aus den zumTeil 
kontraren Anforderungen 



Rechtl iche Rahmenbedingungen 
Haufige Beschaftigungsverhaltnisse bei 
Evaluatoren siehe Diagr. 11/6 



Person I i ch e Vora ussetzu n gen 

abgeschlossenes empirisch-sozialwissenschaftliches Studium 
gute Methodenkenntnisse 

gute Allgemeinbildung im jeweiligen Evaluationsfeld 

hohe Leistungsmotivation und Kommunikationsbereitschaft 

Fahigkeitzum Role-Taking 

soziale Kompetenz 

Strategieentwicklung 

Fuhrungsfahigkeit 
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3. Einsatzgebiete psychologischer 
Evaluation 



lm vorangehenden Kapitel wurden einige wichti- 
ge Grundlagen sozialwissenschaftlich gestutzter 
Evaluation erlautert. I mfolgenden sollen dieprak- 
tischen Aspekte der Evaluationsforschung be- 
lejchtet werden. Zu diesem Zweck werden die 
Einsatzgebiete und Probleme der Evaluationsfor- 
schung am Beispiel konkreter Projektedargestellt. 

Im ersten Abschnitt des Kapitels werden zu- 
nachst einige Einteilungsgesichtspunkte fur 
Evaluationsstudien diskutiert und am Beispiel 
verschiedener praktischer Arbeiten verdeut- 
licht. Ausder Fullemoglicher Differenzierungs- 
merkmale fur Evaluationsstudien wird bereits 
der interdisziplinare Charakter der Evaluation 
deutlich. Ziel deszweiten Abschnitts ist es, die- 
sen Aspekt weiter auszuarbeiten. Ein Vergleich 
des Entwicklungsstandes der Evaluationsfor- 
schung zwischen den USA und der BRD bringt 
einige zusatzliche interessante Aspekte in die- 
sem Zusammenhang mit sich. 

Trotz des fachubergreifenden Einsatzes der 
Evaluation sind durchausstrukturelleGemein- 
samkeiten der meisten Evaluationsprojekte er- 
kennbar. Diesegemeinsamen Elemente werden 
abschlieftend herausgestellt. 

Im dritten Abschnitt soli die ausfuhrliche Dar- 
stellung jeweils eines Projektes aus den Berei- 
chen: 

• Wirtschaft 

• Schul- und Bildungswesen 

• Strafvollzug 

den Einblick in die Anwendungsbereiche und 
Probleme der Evaluationsforschung vertiefen. 
Die Basisfur die Darstellung der Studien bilden 
dabei die im vorhergehenden Abschnitt expli- 
zierten strukturellen Gemeinsamkeiten von 
Evaluationsstudien. 



3.1 Gestaltungsaspekte von 
Evaluationsstudien 

Ebenso wiebei dem Versuch einer allumfassen- 
den Definition des Begriffs «Evaluation» (vgl. 
Abschnitte 1.1 bzw. 2.1.1) wird man auch bei 
der Erstellung eines idealtypischen Klassifika- 
tionsrasters zur Unterscheidung von unter- 
schiedlich gestalteten Evaluationsstudien kei- 
nen Erfolg haben. Die Heterogen itat ist gerade 
im Bereich der Evaluation auRerordentlich 
graft. 

Statt dessen kann man jedoch versuchen, 
Aspekte zu erarbeiten, die ein e erste grobe Be- 
schreibung von Projekten erlauben. Wichtige 
GesichtspunktesieheDiagramm III/ 1. 

Diese die Arbeit in Evaluationstudien steu- 
ernden Einteilungsgesichtspunkte werden im 
folgenden genauer erlautert. 



3.1.1 Evaluationsziele 

In der Regel ist der in der Wissenschaft tatige 
Psychologebzw. Sozialwissenschaftlerdaran ge- 
wohnt, die Ziele seiner Forschungsarbeiten 
selbstzu bestimmen. 

Alswesentli cher Aspekt bei der Definition des 
Begriffes«Evaluation» wurdezu Anfang die Be- 
wertung von Handlungsalternativen herausge- 
stellt, die auf eine konkrete Verbesserung des 
Handelns abzielt. Eine solche Bewertung kann 
nie losgelost von den eigentlich Betroffenen, 
nur nach wissenschaftsorientierten Kriterien 
stattfinden. Da der Evaluator gewohnlich die 
RolledesAuftragnehmersubernimmt, sind ins- 
besondere auch die Vorstellungen und Interes- 
sen des Auftraggebers zu beachten (vgl. Ab- 
schnitt 2.1). 
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Diagramm III/ 1 

Wichtige Aspekte von Evaluationsstudien 


Evaluationsziel(e): 


Warum wird evaluiert? 


Eval u ati o n sberei ch (e) : 


In welch em gesellschaftlichen Bereich wird evaluiert? 


Evaluationsobjekt(e): 


Wer/waswird evaluiert? 


Eval u ati onsort(e): 


Wo wird evaluiert? 


Evaluationsmodell(e): 


Wie wird evaluiert? 


Eval u ati o n sn utzu n g: 


Wie werden die Ergebnisse aufbereitet und entscheidungsrelevant 
verwendet? 



Dies bedeutet fur den Evaluator, daft er die 
zugrunde liegenden Ziele des Projektes erst zu- 
sammen mitdem Auftraggebererarbeiten muft. 
In den seltensten Fallen kann man dabei von 
expliziten Zielstrukturen desAuftraggebersaus- 
gehen. Auch ist grundsatzlich damit zu rech- 
nen, daft dem Evaluator nicht alle wirklich re- 
levanten Ziele mitgeteilt werden. Oft werden 
Interessen und Vorstellungen mit in die Ziel- 
struktur des Auftraggebers eingehen, die dieser 
dem Evaluator zumindest zunachst nicht mit- 
teilen mochte, abertrotzdem erwartet, daft sich 
Antworten darauf in den Ergebnissen finden. 
Diese unzureichende Zielklarung findet sich 
nicht nur bei typisch affirmativ gewollten Stu- 
dien, sondern auch bei «tabuisierten» Bereichen 
(etwa Konflikte innerhalb der auftraggebenden 
Institution, starke Heterogen i tat der Ziele selbst 
innerhalb eines Auftragsverantwortlichen und 
die Veranderung der Ziele uber dieZeit als Fol- 
ge wechselnder aufterer Bedingungen. 

Dagewohnlich mehrere Person engruppen von 
den Ergebnissen einer Evaluation sstudiebetrof- 
fen sind existieren zwischen diesen oft unter- 
schiedliche, zumTeil sogareinander widerspre- 
chendeZiele. Diagramm III/ 2 gibt bei spiel haft fur 
die Evaluation der betrieblichen Weiterbildung 
unterschiedliche Betroffenengruppen und ihre 
moglichen Motiveeiner Erfolgskontrollean. 

Die verschiedenen Zielbundel mussen soweit 
wie moglich in Ubereinstimmung gebracht 



werden. Dazu kann man sich einer Reihevon 
Zielbildungs- und Konsensfindungstechniken 
bedienen, die im vierten Kapitel ausfuhrlich 
beschrieben werden. Der Einfluft der Macht- 
strukturen innerhalb der Betroffenengruppe ist 
dabei als Problem nicht auszuklammern. Ge- 
rade hier wird deutlich, daft Evaluation eben 
nicht (nur) in der Anwendung von Wissen- 
schaft und Datenverarbeitungstechniken be- 
steht, sondern auch erheblichesozialtechnische 
Kompetenzen erfordert. Nutzlich fur dasgezielte 
Nachfragen nach den eigentlichen Evaluations- 
zielen konnen die im Abschnitt 2.1.2 dargeleg- 
ten allgemeinen Zielsetzungen (zum Beispiel 
Veran twortu n gsdel egati on , En tsch ei d u n gsh i I fe, 
Uberprufung der Erreichung vereinbarter Zele) 
sein. Oftzeigen sich auch unvollstandige Ziel- 
klarungen in der uberraschenden Ablehnung 
von Projektdetails, die fur das zunachst an- 
genommeneZiel adaquat sind, aber eben nicht 
die«eigentlichen»2eleerreichen wurden (zum 
Beispiel Vorschlage fur die zu erhebenden em- 
pirischen Indikatoren, fur die Berichtlegung, 
Vertraulichkeitsregelungen etc.) 

Ein ebenso groftes Problem wie die Heteroge- 
nitat der Zielstrukturen liegt in der moglichen 
Veranderung anfangs vorgegebener Ziele. Sind 
solche Entwicklungen abschatzbar, wird der 
Evaluator sich vor solchen plbtzlichen Veran- 
derung durch ein gutes, flexibles Repertoire an 
Evaluationstechniken und durch Bildung von 
Szenarien zu Anfang seiner Untersuchung 
schutzen konnen (vgl. Abschnitt 4.1.3). 
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Diagramm III/ 2 

Betroffenengruppen bei der Evaluation betrieblicher WeiterbildungsmaRnahmen, ihre 
Ziele und Motive fur eine Erfolgskontrolle (Beispiele) 


Seminarteilnehmer 


Trainer 


• Lernerfolgsnachweis 


• Lehrerfolgsnachweis 


• Karri ereforderung 


• Bildungsbedarfshinweis 


• Individuelles Feed-back 


• Feed-back durch Tei In eh mer 


• Lem motivation 


• Ressourcen-Gewinnung 


Vorgesetzte 


Unternehmensleitung 


• Berichterstattung fiber personliche Eindrucke 


• Beurteilung desTrainers 


• Entscheidungshilfen bei Personalfragen 


• Beurteilung der Tei Ineh mer 


• Beurteilung derTrainingsaktivitaten 


• Ressourcen-Bemessung 

• Rechenschaftslegung 

• Effizienz-Nachweis 



D i e n ach tragi i ch e An al yse der «ech ten » Zi el e 
von Evaluationsstudien aufder Basis publizier- 
ter Unterlagen fallt oft schwer, da bei der 
Berichterstattung die Darstellung einer erst all- 
mahlich entwickelten odergegenuberderAus- 
gangslagegeanderten Zielsetzung haufig unter- 
bleibt. Meistens ist daher fur den Leser im 
nachhinein nur eine Spekulation fiber die ver- 
mutlichen Ziele moglich. 



3.1.2 Evaluationsbereich 

Nach Feststellung der Ziele wird die konkrete 
Projektarbeit wesentlich durch das Praxisfeld, 
in dem die Evaluation stattfinden soli, be- 
stimmt. Je nach Bereich gelten andere Spielre- 
geln, Arbeitsmoglichkeiten und rechtlicheRah- 
menbedingungen. 

Die Evaluationsforschung hat mittlerweile 
Einzug in vi el egesel I schaftliche Bereich egehal- 
ten, wassicherdamitzusammenhangt, daftein 
wachsendes Bedurfnis besteht, rational vertret- 
bare Grundlagen fur Urteile und Entscheidun- 
gen zu erhalten. Die reichhaltigsten, vielleicht 
auch umfassendsten Diskussionen innerhalb 
der Evaluationsforschung erfolgten dabei in fol- 
genden Bereichen (vgl. Hellstern und Woll- 
mann, 1984, Lange, 1983): 

• Bildungssektor 

• Wirtschaft 

• Agrar- und Verkehrspolitik 



• Familien- und Sozialpolitik 

• Justizvollzug 

• Arbeitsmarkt- und Beschaftigungspolitik 

• Umweltpolitik 

• Gesundheitswesen 

• Stadtebau- und Wohnungspolitik 

• M i I itari scher Bereich 

Diagramm in/ 3 gibt fur jeden der hier genannten 
Bereiche ein Beispiel einer empirischen Eva- 
luationsstudie aus dem deutschsprachigen 
Raum an. 

Hinzuweisen ist vorallem auf dieumfassenden 
Diskussionen im Bildungssektor. Nach Hell- 
stern und Wollmann (1984, S. 36) hatdieBund- 
Lander-Kommission fur Bildungsplanung und 
Forschungsforderung (BLK) uber 800 Evaluie- 
rungsstudien und Begleitforschungsvorhaben 
unterstutzt. Besonders bekannt geworden sind 
die Diskussionen um den Vergleich desGesamt- 
schulwesens mit dem traditionellen, dreiglied- 
rigen Schu I system. 

DieReformprogrammeim padagogischen Be- 
reich durften fur die Entwicklung der Evalua- 
tionsforschung im deutschen Raum eineahn- 
lich bahnbrechende Funktion gehabt haben, 
wie die sozialpolitischen Reformprogramme in 
den USA wah rend der sechziger Jahre. 

Weniger im Licht der Offentlichkeit stehend, 
aber mit einer langeren Vorgeschichte behaftet 
sind Evaluationsvorhaben im Wirtschafts- und 
Militarbereich. Gerade hier haben sich durch 
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Diagramm III/ 3 

Beispiele empirischer Evaluationsstudien aus den unterschiedlichsten Anwendungs- 
gebieten 


Anwendungsgebiet 


Studie 


Bildungssektor 


Seiffge-Krenke, 1981 

Handbuch Psychologieunterricht Bd. 1 u. 2 
Entwicklung und Erprobung eines Psychologiecurriculums 


Wirtschaft 


Luckie, 1987 

Eval uation innerbetrieblicherTrain erprogram me 


Agrar- und Verkehrspolitik 


Echterhoff, 1981 

Erfolgskontrolle zur Verhaltensbeeinflussung von Ver- 
kehrsteilnehmern: Grundlagen und Empfehlungen 
Hal bach, 1972 

Theorieund Praxis der Evaluation von Projekten in Ent- 
wicklungslandern aus den Bereichen Land- und Forst- 
wirtschaft, Fischerei und Bergbau 


Familien- und Sozialpolitik 


Frassine, 1980 

Evaluation von Modellen auf Klientenebene 


Justizvollzug 


Waxweiler, 1980 

Psych otherapie im Strafvollzug. Eine Empirische Erfolgs- 
untersuchung am Beispiel der sozialtherapeutischen Ab- 
teilung einerjustizvollzugsanstalt 
Ortmann, 1990 

Zum Resozialisierungseffekt der Sozialtherapie anhand 
einer experimentellen Langsschnittstudie zu Justizvoll- 
zugsanstalten des Landes N RW 


Arbeitsmarkt und 


C. Offe& K. Hinrichs, 1977 


Beschaftigungspolitik 


Untersuchung einzelner Beschaftigungsgruppen hin- 
sichtlich AusmalS und Dauerder Arbeitslosigkeit 


Umweltpolitik 


Umwdtbundesamt, 1980 

EinfluR von Verkehrslarm auf die Gehorerholung wah- 
rend der Freizeit 


Gesundheitswesen 


Wittmann, 1979 

Moglichkeit der Evaluationsforschung im Rahmen des 
Verbandes Deutscher Rentenversicherungstrager, darge- 
stellt an einem empirischen Projekt zur Diagnostik und 
Schweregradeinteilung bei chronischen nichtspezi- 
fischen Atemwegserkrankungen (CNSRD) 


Stadtebau- und Wohnungspolitik 


Amt fur Statistik und Stadteforschung der Stadt Bochum, 

Das raumliche Ordnungskonzept Bochums Evaluation 
der Sedlungsentwicklung in Verdi chtungsgebieten 


M ilitarischer Bereich 


Rausch, 1985 

Vergleichende Betrachtungen psych ologischer Arbeits- 
analyseverfahren vor dem Hintergrund ihrer Anwend- 
barkeit zur Untersuchung komplexer militarischer 
M en sch -M asch i n en -Systeme 
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intensive Bemuhungen dieeffektivsten Formen 
der Erfolgs- und Wirkungskontrolle entwickelt 
(vgl. Stufflebeam, 1972). Diese Formen der Eva- 
luation wurden schnell und mit groBem Auf- 
wand entwickelt, daein groBes Bedurfnis nach 
rational begrundeten Entscheidungen bestand. 

Ahnlich starke Aktivitaten sind derzeit leider in 
keinem der anderen genannten Bereiche er- 
kennbar, obwohl auch dort ahnlich weit- 
reichende Konsequenzen bei gleichem Evalua- 
tion saufwand zu erwarten waren; man denke 
etwa an Bemuhungen zur Verbesserungen im 
Umweltschutzoder im Gesundheitswesen. Flier 
waren ebenso effektive Kontrollmethoden wie 
im M i I i tar- und Wirtschaftsbereich auBerst 
wunschenswert. 

Fur den in verschiedenen Bereichen tatigen 
Evaluator stel It si ch das Problem, insbesondere 
dierechtlichen Bedingungen wenigstensunge- 
fahr zu kennen. So erfordert etwa die Arbeit in 
Schulen besondere Genehmigungen des zu- 
standigen Ministeriums, in Betrieben sind die 
M itbestimmungsrechte des Betriebsrates mit 
groBter Sorgfalt schon im Vorfeld zu beachten, 
und im Gesundheitswesen kann eseinewich- 
tige Frage sein, welche Variablen an Patienten 
nur von Arzten (bzw. unter deren unmittelba- 
rer Aufsicht) erhoben werden durfen. Neben 
diesen Aspekten spielt auch die «emotionale 
Passung» des Evaluators eine erfolgsentschei- 
dende Rolle. Ein Untersucher, der in einer 
Schule in freier Tragerschaft und besonders 
fortschrittlichem padagogischem Konzept her- 
vorragende Akzeptanz findet, hat u.U. Pro- 
bleme, auch mit traditionell eingestellten 
Kulturburokraten eine gute emotion ale Ge- 
sprachsgrundlagezu finden, und ein uberzeug- 
ter Gegner der Bundeswehr ist vielleicht nicht 
der optimale Gesprachspartner fur die Ausar- 
beitungder DetailseinesAuftrages im militari- 
schen Bereich. Fur den Berufsanfanger ist schon 
viel gewonnen, wenn ersich der Fleterogenitat 
derVerhaltenserwartungen in den unterschied- 
lichen Feldern bewuBt wird und ein Sensorium 
dafur entwickelt, welche Verhal ten swei sen an- 
gemessen bzw. erfolgsbeeintrachtigend sind. Im 
ubrigen sollteniemand in einem Feld arbeiten, 
auch nicht als Evaluator, daB seinen personli- 
chen Werthaltungen nach stark negativ einge- 
schatzt wird. 



3.1.3 Evaluationsobjekt 

Das Eval uati on sobj ekt i st j ewei I s al s O berbegri ff 
fur diezu bewertenden Alternativen zu sehen 
(s. Diagramm III/ 4). Grundsatzlich sind mehrere, 
verschiedene Gruppen von Evaluationsobjek- 
ten denkbar: 

• Person en 

• Umwelt-/Umgebungsfaktoren 

• Produkte 

• Tech ni ken/ Meth oden 

• Zielvorgaben 

• Programme 

• Projekte 

• Systeme/Strukturen 

• Forschungsergebnisse/Evaluationsstudien 

Diagramm in/ 5 gibt fur jededer genannten Grup- 
pen ein Beispiel eines konkreten Evaluations- 
projektesausdem deutschsprachigen Raum an. 

Eine wichtige Unterscheidung innerhalb der 
Gruppe «Personen» als Evaluationsobjekt ist 
noch in der Beantwortung der Frage zu sehen, 
ob sich die Evaluation auf Einzel person en, Oder 
aber auf ganze Personengruppen bezieht. Diese 
Differenzierung durfte vor allem fur den kli- 
nisch-therapeuti sehen Bereich, insbesondere fur 
die Diskussion im Zusammenhang mit Einzel- 
fallanalysen, von Bedeutungsein (vgl. Bommert 
& Petermann, 1982; Petermann & Henl, 1979). 

Fur die Gestaltung der Projektarbeit ist zu un- 
terscheiden, was die «eigentlichen» Evalua- 
tionsobjektesind, alsojeneEinheiten, diewirk- 
lich bewertet (evaluiert) werden sollen, und 
welche anderen «Objekte» nur als H i I f sm i ttel , 
sozusagen als Datentrager, untersucht werden. 
So istetwadieBewertungdervierTechniken zu 
Verbesserung der Lese- und Mathematik- 
leistungen (die eigentlichen Evaluationsobjek- 
te) in der von Levin et. al., 1986, genannten 
Untersuchung zwangslaufig mit einer Erhe- 
bung der Leistungen bestimmter Schuler ver- 
bunden. Die Schulerdaten werden aber nicht 
mit dem Ziel einer personenbezogenen Bewer- 
tung erhoben (und verrechnet!), da es in die- 
sem Projekt uberhaupt nicht darauf ankommt, 
ob Schuler A Oder B bessere Ergebnisseerzielte. 
Die klare Trennung zwischen «Evaluations- 
objekt»und «Datentrager» kann, bei passender 
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Diagramm III/ 4 

Gruppen von Evaluationsprojekten 



Personen 

(Verhalten, Lei stung, Fahigkeiten, 
Einstellungen etc.) 

Lernerfolg der Teilnehmer eines Weiter- 
bildungsseminars, Verhaltensanderungen von 
Rauchern nach einer Anti-Raucher-Kampagne 



Produkte 

Wirkung verschiedener Psych opharmaka auf 
die psych ischeGesundheit, Vergleich der Ver- 
kaufswirksamkeit verschiedener Korperpflege- 
linien 



Zielvorgaben 

Auswirkungen der Konzentration der Lehr- 
ziele auf soziales Lernen und/oder fachliches 
Lernen, Auswirkungen der Betriebsziele «Mit- 
arbeiterorientierter Fuhrungsstil» versus «Auf- 
gabenorientierter Fuhrungsstil» auf das 
Arbeits- und Betriebsklima 

Systeme/ Strukturen 

Vergleich von Privathochschulen versus staat- 
lichen Flochschulen im Hinblick auf die be- 
rufliche Qualifikation, Wirkung einer flachen 
versus einer steilen Hierarchiestruktur in ei- 
nem Unternehmen auf den Kontrollspielraum 
der Mitarbeiter 



Umwelt-/ Umgebungsfaktoren 



Wirkung von StraBenlarm auf den nacht- 
lichen Ruheschlaf, Wirkungen bestimmter 
architektonischer Strukturen auf das subjek- 
tive Wohlbefinden 

Techniken und Methoden 
Vergleich verschiedener Lesetechniken hin- 
sichtlich der Lesegeschwindigkeit, Vergleich 
verschiedener Prasentationstechniken im Hin- 
blick auf die Behaltensleistung des Auditori- 
ums 

Projekte/ Programme 

Wirksamkeit einer Aufklarungskampagne zu 
Aids, Auswirkungen eines psych otherapeu- 
tischen Behandlungsprogramms im Strafvoll- 
zug 



Forschungsergebnisse/ Evaluationsstudien 
Bewertung der methodischen Vorgehenswei- 
se in einer Evaluationsstudie, Zusammenfas- 
sende Bewertung der Forschungsergebnisse 
auf einem bestimmten Fachgebiet (Meta-Eva- 
luation, vgl. Abs. 2.1.3) 



Darstellung, gelegentlich zurUberwindung von 
Bedenken bei Zustimmungen (hier zum Bei- 
spiel der El tern) nutzlich sein. 

Eine weitere Gruppe von «Objekten» hangt 
mit Erhebungen zusammen, die fur die Ein- 
schatzung der Evaluationsergebnisse wichtig 
sind, aber weder «Datentrager»sind noch selbst 
bewertet werden sollen. 

So kann etwa der EinflulS verschiedener 
Lehrerpersonlichkeiten fur den relativen Erfolg 
von Didaktikformen (oder die Therapeuten- 
person I i ch kei t f u r d i e Resu I tate therapeutischer 
Techniken) von entscheidender Bedeutung 
sein, und mu(5 daher im Rahmen des Evalua- 



tionsprojektes zur Klarung der Frage der Ver- 
allgemeinerbarkeit bzw. der sachgerechten 
«lndikationsstellung» (Wer soil welche Vorge- 
hensweise wahlen?) erhoben werden. Entsteht 
dabei aber der Eindruck, dal$ die im Feld han- 
delnden Personen, und nicht die Techniken, 
bewertet werden, ergeben sich leicht Wider- 
standeoder Ergebnisverzerrungen (so kann sich 
zum Beispiel ein Lehrer, der sich indirekt 
«evaluiert» fuhlt, trotz einer nicht gunstigen 
technischen Vorgabe fur seinen Unterrichts so 
anstrengen, da(5 - aber nur fur die Unter- 
suchungssituation! - Mangel der didaktischen 
Konzeption uberdeckt werden). 
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Diagramm III/ 5 

Beispiele fur Evaluationsobjekte in konkreten Evaluationsstudien 


Studie 


Evaluationsobjekt 


Berthold, Gebert, Rehmann, von Rosensti 1 , 1980 
Schulung von Fuhrungskraften - eineempi- 
rische Untersuchung uber Bedingungen und 
Effizienz 


Personen: Teilnehmer der Weiterbildungs- 
seminare wurden hinsichtlich einer Verhal- 
tensveranderung wahrend und nach den Se- 
mi naren bewertet 


Scharnberg, W uhler, Fink, Guski, 1982 
Beeintrachtigung des Nachtschlafes durch 
Larm 


Umgebungsfaktoren: Wirkungvon Straltenlarm 
auf den Nachtschlaf wurde in mehreren Stra- 
iten einer Groltstadt (Berlin) bewertet 


Witt, 1985 

No-name Produkte und Anbieterpolitik im 
Spiegel einer empirischen Analyse des Ver- 
brau ch erverh al ten s 


Produkt: Bewertung des Images von No-name 
Produkten durch den potentiellen Verbrau- 
cher 


Levin, Glass, Meister, 1986 
Different Approaches to Improving Perform- 
ance at School: A Coast-Effectiveness Com- 
parison 


Techniken/Methoden: Vergleich von vier ver- 
schiedenen Techniken zur Verbesserung der 
Mathematik- und Leseleistung von Grund- 
schulern 


Seiffge-Krenke, 1981 
Flandbuch Psych ologieunterricht 


Zielvorgaben: Entwicklung und Erprobung 
neuer Lehr- und Lernziele fur den Psycho- 
logieunterricht in der Sekundarstufe II in 
Form eines Psychologiecurriculums 


Waxweiler, 1980 

Psychotherapie im Strafvollzug. Eineempiri- 
sche Erfolgsuntersu chung am Beispiel der 
sozialtherapeutischen Abteilung einer Justiz- 
vollzugsanstalt 


Projekte/Programme: Untersuchung der Wir- 
kung einer psych otherapeutischen Behand- 
lung auf Straffal 1 ige in einer Justizvollzugs- 
anstalt 


Ortmann, 1990 

Zum Resozialisierungseffektder Sozialtherapie 
anhand einer experimentellen Langsschnitt- 
studie zu Justizvollzugsanstalten des Landes 
NRW 


Untersuchung der Wirkung der Sozialthera- 
pie auf das Legal verhalten 


H aen isch, Lukesch, Klaghofer, Kruger-Flaenisch, 
1979 

Gesamtschule und dreigliedriges Schulsystem 
in NRW. Schulleistungsvergleich in Deutsch, 
Mathematik, Englisch und Physik 


Systeme/Strukturen: Vergleich der Schulleistun- 
gen von Schulern des traditionellen und des 
Gesamtschulwesens in ausgewahlten Fachern 


M att, 1982 

Meta-Analyse deutschsprachiger Psychothera- 
pieeffektforschung der Jahre 1971-1982 


Forschungsergebnisse/Evaluationen: In den Stu- 
dien wurden Psychotherapieeffektstudien ei- 
ner bewah rten M eta-Analyse unterzogen 


Grawe, Donati, Bernauer, 1995 

Meta-Analyse zur Psychotherapieeffektfor- 

schung 
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Hier wird ein methodisches Problem deut- 
lich, daB besonderer Berucksichtigung bedarf: 
Die mogliche Konfundierung von Effekten. Bei 
der Designerstellung und der anschlieRenden 
Auswertung sollten deshalb ausreichendeMaR- 
nahmen zur Verhinderung von Effektkonfun- 
dierungen getroffen werden, soweitdiesim Feld 
tatsachlich moglich ist (s. dazu 5.2). 



3.1.4 Ort der Evaluierung 

Betrachtet man das Spektrum moglicher Eva- 
luationsobjekte, wird bereitsdeutlich, daft eine 
Evaluation prinzipiell an den verschiedensten 
Orten durchfuhrbar ist. 

So konnteetwadieKontrolledesLernerfolges 
der Teilnehmer eines Weiterbildungsseminares 
durch einen Fragebogen am Ende des Semina- 
res im Schulungsraum des Betriebes durch- 
gefuhrt werden, die Messung von StraBenlarm 
konnte durch ein SchallpegelmeRgerat in 
den Wohnraumen der Betroffenen erfolgen, die 
Wirksamkeit einer Aufklarungskampagne 
konntedurch eineBefragung in der FuBganger- 
zoneeiner Innenstadt getestet werden , dieWir- 
kung eines Psych opharmakons wird man dage- 
gen wohl eher im Labor uberprufen. 

Grundsatzlich kann man die Evaluation im 
Labor und im Feld unterscheiden, wobei die 
erste Moglichkeit sicher die weniger praktizier- 
tedarstellt. Nach Patry (1982, S. 18ff.) sind fol- 
gendevierGrundprinzipien der Feld-Definition 
von Bedeutung: 

• Das Verhalten (abh an gige Variable) kann 
mehr Oder weniger naturlich sein. Unter na- 
turlichem Verhalten wird dabei jenesVerhal- 
ten verstanden, das in keiner Weise instru- 
iert wurde. 

• Das Treatment (unabhangige Variable) 
kann mehr Oder weniger naturlich sein, je 
nachdem wie stark durch den Versuchsleiter 
manipuliert wird 

• Das Setting (Ort der Untersuchung) kann 
mehr Oder weniger naturlich sein. Dabei ent- 
scheidet die subjektive Wahrnehmung der 
Probanden daruber, ob ein Setting naturlich 
ist Oder nicht. Bemerken die Probanden ein- 
gefuhrten Anderungen nicht (oder vergessen 



sie), kann das Setting als annahernd natur- 
lich gelten. 

• Das Wissen der Probanden daruber, daft 
eine Untersuchung stattfindet, welche Hy- 
pothese der Untersuchung zugrunde liegt 
und durch Tauschung herbeigefuhrtefalsche 
Vermutungen uber die Flypothese, spielen 
ebenfallseine Rolle. 

Das Labor wird meist synonym mit groBerer 
Kontrollierbarkeit, weniger Storvariablen und 
grofterer innerer Validitat zusammengebracht. 
Die Ubergange zwischen Labor und Feld sind 
oftflieRend. Dieerlauterten Eigenschaften von 
Labor und Feld sind auch durchaus nicht zwin- 
gend an den Ort alssolchen gebunden, hangen 
jedoch stark mit ihm zusammen, was eine 
Rechtfertigung der Unterteilung in Feld- und 
Laborforschung zulaRt. Im sozialwissenschaft- 
lichen Bereich uberwiegen feldnahe Studien, 
auch alle im Diagramm III/ 5 gehoren dazu. Ein 
Beispiel fur eine starker an den Prinzipien der 
Laborforschung orientierten Arbeit im padago- 
gischen Bereich gibt Thiele (1981). 

Beide Untersuchungsarten bringen spezifi- 
scheProblememitsich, wiesievor allem ausder 
generellen Diskussion um Labor- bzw. Feldfor- 
schung bekannt sind. Weiterfuhrende Literatur 
im Zusammenhang mit Evaluationsfragestel- 
lungen geben Gniech (1976) und Patry (1982). 



3.1.5. Evaluationsmodell 

DieVielzahl der Varianten von Evaluationen 
hat dazu gefuhrt, daBjenach Schwerpunkt der 
Zielsetzungund Realisationsmoglichkeiten unter- 
schiedliche Evaluationskonzepte, sogenannte 
«Evaluationsmodelle»entwickelt wurden. Glass 
und El let (1980) schatzen, daR es mehr als 20 
solcher Ansatze und Modelle in der Literatur 
gibt. Nach eigenen Schatzungen durfte diese 
Zahl inzwischen noch weit hoher liegen. 

Die unterschied lichen Modelle lassen sich vor 
allem nach 

• Entscheidungssituation, 

• Entscheidungsbedingungen, 

• Art der verwendeten Instrumente und Ver- 
fahren, 
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• AusmalS der Prazision bei der Sammlung und 

Analyse von Informationen, 

• methodischen Fahigkeiten der Evaluatoren 

und ihrer Adressaten 

unterscheiden (vgl. Stufflebeam, 1972, S. 125). 

Vielfach sind dieseModelleim Bereich derpad- 
agogischen Psych ologie und in den Sozialwis- 
senschaften entstanden. EinigeAnsatzewurden 
bereits im zweiten Kapitel (vgl. Diagramm 11/ 3) 
dargelegt. Weiterellbersichten, diediemeisten 
Modelle in der Evaluationsforschung einander 
gegenuberstellen, finden sich etwa bei Worth en 
und Sanders (1973), Glass und Ellet (1980) so- 
wie Hermann etal. (1988). 

Innerhalb der zahlreichen unterschied lichen 
Modellansatze durfte fur die Projektgestaltung 
vor allem Scriven's Unterscheidung zwischen 
formativer und summativer Evaluation die 
groftte Bedeutung haben. 

Dieformative Evaluation stellt vor allem In- 
formationen fur noch in der Vorbereitungs- 
oder Implementierungsphase befindliche, Oder 
laufende Programme bereit, die verbessert wer- 
den sollen. 

Ein Beispiel fur eine formative Evaluation 
gibt etwa die bereits erwahnte Studie von 
Seiffge-Krenke(1981): Bei der Entwicklung und 
Implementierung eines neuen Psychologie- 
cu rri cu I ums wu rde si n n vol I erwei se ei n e forma- 
tive Evaluation zur standigen Verbesserung des 
Curriculumsdurchgefuhrt. 

Eine summative Evaluation dagegen soil die 
Qualitat und den EinfluB bereits stattgefunde- 
ner Programme feststellen und abschlieftend 
bewerten. Sie ist dann sinnvoll, wenn mehrere 
disjunkte Handlungsformen vorliegen, deren 
Konsequenzen miteinander verglichen und so 
bewertet werden konnen. 

Ein Beispiel fur eine summative Evaluation 
stellt die erwahnte Untersuchung von Levin et 
al. (1986) dar: Als Entscheidungshilfe bei der 
Wahl geeigneter MaBnahmen zurVerbesserung 
der Mathematik- und Leselei stun gen von 
Grundschulern werden vier verschiedeneTech- 
niken (Senkungder Klassenfrequenz, Verlange- 
rung des Schulalltags, Computerunterstutzter 
Unterricht und Einsatz von Gleichaltrigen und 
Erwachsenen alsTutoren) in einer Kosten-Wirk- 
samkeitsanalyseeinem Vergleich unterzogen. 



Manchmal werden summative und formative 
Evaluation gleichzeitig durchgefuhrt. Dies ist 
zweckmaGig, wenn ein Projekt von der Pla- 
nung- bis zur Transferphase begleitet werden 
kann (vgl. etwa Seiffge-Krenke, 1981). 

Diagramm III/ 6 stellt die formative und die 
summative Evaluation mit ihren wesentlich- 
sten Kennzeichen vergleichend gegenuber. 

3.1.6. Evaluationsnutzung 

Fur die Gestaltung des Evaluationsprojektes ist 
es auch entscheidend zu wissen, in welcher 
Weise die Ergebnisse in praktisches Handeln 
umgesetzt werden sollen. In der Praxis treten 
dabei vor allem folgende Varianten auf: 

• Die Ergebnisse erfahrt nur der fur die evalu- 
ierte Handlung Verantwortliche, und es 
bleibt in seinem Ermessen, wie er diese zur 
Optimierung seines eigenen Verhaltens her- 
anzieht (hier liegt dann in gewissem Sinne 
eine, wenn auch eventuell mitfremder Hilfe 
erarbeitete, «geschlossene Selbstevaluation 
vor»). 

Beispiel: Das Fuhrungsverhalten des Vorge- 
setzten wird anhand einer Befragung seiner 
unmittelbar unterstellten Mitarbeiter evalu- 
iert, die Ergebnisse aber nur dem Vorgesetz- 
ten selbst mitgeteilt. 

• Die Entscheidung bleibt voll im Ermessen 
desevaluierten Verantwortlichen, die Ergeb- 
nisse werden aber offengelegt; daraus ergibt 
sich ein hoherer Druck auf Verhaltensan- 
derung, gegebenen falls aber auch eine ver- 
starkte Tendenz zur kognitiven Abwehr der 
Eval uati on sergebn i sse. 

Beispiel: Die Lehrveranstaltungen von Do- 
zenten werden von den Studenten anhand 
eines Fragebogens bewertet, die Nutzung der 
Ergebnisse bleibt in der Eigenverantwortung 
des Dozenten, werden aber zur Information 
der Fakultat am schwarzen Brett ausgehangt. 

• Die Ergebnisse werden auch arbeitsrechtlich 
ubergeordneten Personen mitgeteilt, die sie 
aber nur zu einer Beratung der evaluierten 
Personen nutzen und keine«Machtentschei- 
dungen» darauf aufbauen. 

Beispiel: Die Arbeit der Psychologen in einer 
Erziehungsberatungsstelle wird umfassend 
evaluiert (zum Beispiel unter Hinzunahme 
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Diagramm III/ 6 

Vergleich der wesentlichen Kennzeichen von formativer 
(nach Herman, Morris & Taylor Fitz-Gibbon, 1988, S. 26) 


und summativer Evaluation 


Merkmal 


Formativ 


Summativ 


primare Zielgruppe 


Programm-Entwickler 
Programm-M anager 
Programm-Durchfuhrende 


Politiker 

interessierte Offentlichkeit 
Geldgeber 


primare Betonung bei der 
Datensammlung 


Klarung der Ziele 
Art des Programm-Prozesses bzw. 
der Programmdurchfuhrung 
Klarung der Probleme bei der 
Durchfuhrung und der Annahe- 
rung an Ergebnisse 
Analyse zur Durchfuhrung und 
Ergebnisse auf Mikroebene 


Dokumentation der Ergebnisse 
Dokumentation der Durchfuh- 
rung 

Analyse zur Durchfuhrung und 
Ergebnisse auf Makroebene 


primare Rolle des Programment- 
wicklers und Programm-Ausfuh- 
renden 


M itarbeiter 


Datenbeschaffer 


primare Rolle des Evaluators 


interaktiv 


unabhangig 


typische Methodologie 


qualitative und quantitative, mit 
groGerer Betonung der ersteren 


quantitative, manchmal durch 
die qualitative bereichert 


Haufigkeit der Datensammlung 


fortlaufende Uberwachung 


begrenzt 


primare Mechanismen der 
Berichtlegung 


Diskussion/Treffen, informelle 
Interaktion 


formale Berichte 


Haufigkeit der Berichtlegung 


haufig wahrend derganzen Zeit 


zum SchluG 


Schwerpunkt des Berichts 


Beziehung zwischen den 
ProzeGelementen (Mikro-Niveau) 






Beziehung zwischen Kontext 
und ProzeG 

Beziehung zwischen ProzeG und 
Ergebnis 

Implikationen fur Programm- 
praktiken und spezifische 
Veran derun gen bei den 
Operationen 


Implikationen fur Politik, 
administrative Kontrollen und 
Management 


Anforderungen fur Glaubwurdig- 
keit 


Ubereinkunft mit Entwicklern/ 
Durchfuhrenden hinsichtlich der 
Berichtlegung 
Befurwortung/Vertrauen 


wissenschaftliche Strenge 
Unparteilichkeit 
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von objektiven Daten wie Wartezeiten, sub- 
jektiven Einschatzungen der ratsuchenden 
Kinder und Eltern, Angaben von Lehrern 
uber die erlebten Veranderungen), dieErgeb- 
nisse innerhalb der Erziehungsberatungs- 
stelle diskutiert und gemeinsam versucht, 
weitereOptimierungen durchzufuhren. 

• Die Ergebnisse dienen zu «Machtentschei- 
dungen» von weder direkt noch indirekt 
selbst evaluierten Entscheidungstragern. 
Beispiele: Auswahl von Bildungsanbietern 
auf der Basis von Evaluationsergebnissen 
durch auftragvergebende Stellen, Entschei- 
dungen uber die Einfuhrung bestimmter 
didaktischer Hilfsmittel wie zum Beispiel 
Lehrbucher Oder didaktischer Konzeptionen 
im bffentlichen Schulwesen, Entscheidung 
u ber d i e eventuel I e Fortsetzun g ei ner Reform- 
maRnahmeim forensischen Bereich etc. 

• Die Ergebnisse werden offengelegt und sol- 
len Bestandteil einerauf konkrete(politische) 
Entscheidungen bezogenen allgemeine Dis- 
kussion sein. 

Beispiele: Kontrovers diskutierte Bauvorha- 
ben, gesetzliche Bestimmungen Oder organi- 
satorische Regelungen im Offentlichen Be- 
reich. 

• Die Ergebnisse werden einer (fach-) offentli- 
chen Diskussion zugefuhrt, die aber keine 
konkreten, zu einem bestimmten Zeitpunkt 
erforderlichen Entscheidungen herbeifuhren 
soil. 

Beispiele: Metaanalysen zur Bewertung un- 
terschiedlicher Therapieformen, Studien zur 
fachwissenschaftlichen Bewertung verschie- 
dener eignungsdiagnostischer Instruments 
Evaluationen von MaRnahmen zurVerkehrs- 
beruhigung etc. 

Auch wenn naturlich, wiejedes Evaluations- 
projekt, alle Studien dieser Art einen direkten 
oderzumindest indirekten Entscheidungsbezug 
haben, muR nicht nur die Form der Bericht- 
legung und die Berucksichtigung der dabei 
moglicherweise auftretenden «Fettnapfchen» 
vordem Flintergrund der spezifisch vorgesehe- 
nen Verwendung uberlegt werden. Praktisch 
alle Detailsdesjeweiligen Evaluationsprojektes 
werden durch den konkreten Verwertungs- 
zusammenhang beeinfluRt. So kann esbei dem 
ersten hier genannten Fall, bei dem die Ent- 
scheidungsberechtigung und die Zuganglich- 



keitderin der Evaluationsstudieerhobenen In- 
formation nur fur die evaluierte Person selbst 
gegeben ist, sehr zweckmaRig sein, auch nur 
schwach fundierte Aspekte empirisch zu erhe- 
ben und als «Hinweise» in den Projektbericht 
aufzunehmen. So kann man in dem hier ge- 
nannten Beispiel durchaus der Meinung sein, 
daR die Vergabe von «Schulnoten» bezuglich 
der Fuhrungsleistung durch Mitarbeiter in vie- 
len Fallen nicht fundiert sein kann, da viele 
Mitarbeiter (insbesondere Berufsanfanger) kei- 
ne ausreichende Erfahrung mit Fuhrungskraf- 
ten alsVergleichsgrundlagesammeln konnten, 
um einewirklich fundierte Einschatzung ihres 
Vorgesetzten abzugeben. Es ware in einer sol- 
chen Situation dann unverantwortlich, im Rah- 
men eines Evaluationsprojektes zum Beispiel 
eine Fuhrungskraft von den Mitarbeitern be- 
werten zu lassen und durch desen Vorgesetz- 
ten aufgrund nur dieser «Schulnoten» weitrei- 
chende personliche Entscheidungen wie zum 
Beispiel Kundigung treffen zu lassen. Bleibtdie 
Information und die Entscheidungsberech- 
tigungbei der evaluierten Fuhrungskraft selbst, 
kann es fur diese naturlich von erheblichem 
Interessesein, zu erfahren, daR siegut Oder we- 
nigergutvon ihren Mitarbeitern gesehen wird, 
unabhangig von der «harten» Fundierung ei- 
ner solchen Einschatzung. In gleicher Weise ist 
es im letztgenannten Fall oft sinnvoll, auch 
anonymisierte Einzelmeinungen und sehr kri- 
tische personliche Bemerkungen als Hinweise 
auf Problemeweiterzuleiten, wahrenddessen es 
bei Offenlegungder Ergebnisseim Regel f al I vol- 
lig unangemessen ware, solche vielleicht sehr 
personlichen und evtl. ungerechtfertigten in- 
kriminierenden Einzelaussagen ungefiltert 
darzustellen. In gleicher Weise muR mitzuneh- 
mender «Fremdbestimmung» Oder Offentlich- 
keitswirkung in der Evaluationsarbeit versucht 
werden, Storeffekte und intervenierende Varia- 
blen herauszuarbeiten. So kann bei selbst- 
verantworteter Nutzung fur die personliche 
Verhaltensoptimierung eine auf Storeffekten 
aufbauende Exhaustion gegeben en falls auch 
vom Verantwortlichen selbst vorgenommen 
werden, ohnedaR unbedingt im Projektdieda- 
fur erforderlichen Datengrundlagen geschaffen 
werden mussen. Flangt aber zum Beispiel die 
Entscheidung uber die weitere Vergabe von 
Geldmitteln an einen Bildungstragerdavon ab, 
wiediedort erzielten BildungsmaRnahmen be- 



66 Einsatzgebiete psychologist er Evaluation 



wertet werden, solltedieAnalysezumindestder 
wichtigsten intervenierenden Variablen (liegtes 
am Bildungsangebot, der evtl. vom Auftragge- 
ber erzwungenen schlechten Oder fehlenden 
Vorselektion derTeilnehmer, den unzureichen- 
den Ressourcen Oder der fehlenden Transfer- 
unterstutzung der Bildungsinhaltein die Praxis 
durch den Auftraggeber?) gesichert sein, um 
Fehlentscheidungen soweit wiemoglich zu ver- 
meiden. 



3.2 Evaluation als 
interdisziplinares Feld 

Evaluation als problemorientiertes Handeln 
kann nichtnurauf Erkenntnissen einer Einzel- 
wissenschaft aufbauen, sondern muG neben 
vielen wissenschaftlichen Aspekten (aus den 
unterschiedlichsten Bereichen) auch Praxis- 
wissen integrieren. Leider bestehen hier Defizi- 
te (3.2.1), ohne deren Behebung der enorme 
Aufschwung, den die Evaluationsarbeit in den 
USA genommen hat (3.2.2) nicht wiederholbar 
ist. 

Zur Strukturierung der Fallbeispiele im Ab- 
schnitt 3.3 werden hier zunachst einige Punkte 
skizziert, die alien Projekten trotz ihrerfach li- 
chen und aufgabenbezogenen Fleterogenitat 
gemeinsam sind und damit einen gewissen 
Ubersichtsrahmen bieten (3.2.3). 

3.2.1 Notwendigkeit einer einzelne 
Evaluationsbereiche iiberschrei ten- 
den Vorgehensweise 

Esherrscht Einigkeit hinsichtlich derTatsache, 
daft es sich bei der Evaluationsforschung um 
ein interdisziplinares Feld handelt, das weit 
uber die Grenzen einzelner sozialwissenschaft- 
licher Disziplinen hinausgeht (vgl. Wittmann, 
1985). 

Wiebereitsim Abschnitt 3.1.5 deutlich wurde, 
hat die Evaluationsforschung mittlerweile Ein- 
zug in viele unterschiedliche gesellschaftliche 
Bereiche gehalten. Die vielen verschiedenen 
Formen und Modelle der Evaluation wurden 
dabei allefur spezifische Anwendungsbereiche 
entwickelt: So entstand etwa die «Program Eva- 
luation and Review Technique» (PERT), um 



dem Militar bei der Entscheidung uber die Ent- 
wicklung komplexer Waffensysteme zu helfen, 
Budgeting Systeme ermoglichen in der Wirt- 
schaft eine genaue Kontrolle der Kosten, die 
Wertanalyse ist bei der Produktplanung und 
-gestaltung einegroRe H i I fe zu r Wertgestaltung 
und Wertverbesserung, dieSchulbegleitforschung 
gibt u.a. wesentliche AnstoRefur die Entwick- 
lung neuer Lehrplane. 

Leider fanden derartigeEntwicklungen oft in- 
nerhalb desjeweiligen Fachbereichesohne Be- 
zug zu anderen Feldern statt. So ist es denn 
auch nicht verwunderlich, daft viele sich stark 
ahnelnde Tech ni ken und Methoden vollig un- 
abhangig voneinander, zu verschiedenen Zeit- 
punkten und in vollig unterschied lichen Diszi- 
plinen entwickelt wurden. 

Die mangelnde Zusammenarbeit zwischen 
verschiedenen Fach disziplinen geradeim Bun- 
desdeutschen Raum beklagen auch Hellstern 
und Wollmann (1984, S. 34): «Esfehlt vor al- 
lem ein sektoralePolitikfelder uberschreitender 
und verschiedene Fachdisziplinen integrieren- 
der Fokus, wieer sich in den USA, aber auch in 
Kanada und anderen Landern durch dieGrun- 
d u n g ei gen er beruf sstan d i sch er O rgan i sati on en 
auf der regionalen und nationalen Ebene ma- 
nifestiert.» 

Der Einfluft der Evaluationsforschung im ge- 
sellschaftlichen und tech nologi sch en Wandel 
ist abhangig von der Reichweite ihres Wir- 
kungsspektrums Dieses liefte sich durch eine 
integrative Zusammenarbeit enorm erweitern 
und wesentlich effektiver gestalten. Anzustre- 
ben ware hier die Intensitat und das AusmalS 
einer anwendungsorientierten Forschung, wie 
sie in den USA bereitserreicht wurde. 

Eine besondere Ursache fur das Problem ei- 
nes nur mangelhaften Erfahrungsaustausches 
von Evaluations-Knowhow uber die verschie- 
denen Anwendungsfelder hinweg liegt in der 
sehr starken Einbettung der meisten im Eva- 
luationsbereich berufstatigen Personen in ein 
bereichsspezifisches Setting. Dies ergibt sich 
zum Teil durch die Beschaftigungsverhaltnisse 
(so kann ein auch mit Evaluationsfragen beauf- 
tragter M i tarbei ter ei n er psych i atri sch en Kl i n i k, 
der dort ein festes Angestelltenverhaltnis hat, 
naturlich nicht ohne wei teres gleichzei tig Eva- 
luationsstudien im Bildungsbereich und in der 
Wirtschaft durchfuhren), bei den selbstandig 
arbeitenden Evaluatoren folgt es oft aus den 
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Moglichkeiten erfolgreicher Projektaquisition. 
Esfallt naturlich leichter, auch vordem Hinter- 
grund der im Abschnitt 3.1.2 beschriebenen 
«person lichen Passung», Folgeauftragedann zu 
halten, wenn man auf in einem gleichen Oder 
doch sehr ahnlichem Feld erfolgreiche Evalua- 
tion sprojekteverwei sen kann. Diesfuhrt in der 
Folgeaberauch zu geradeausder Sicht potenti- 
eller Auftraggeber verstandlichen «Labelling- 
Effekten» («Frau X ist Spezial isti n fur den fo- 
rensischen Bereich, was soil uns die bei einer 
verkehrspolitischen Frage helfen?»), die eine 
Ubernahmevon Evaluationsprojekten in bisher 
fremden Bereichen mit zunehmender Dauer 
der Berufstatigkeit eher erschweren. 

Dievermutlich besteLosung wurde in einem 
intensiven Erfahrungsaustausch zwischen den 
Evaluatoren aus unterschiedlichen Bereichen 
liegen, doch feh It zumindest derzeit dafur ein 
geeigneter organ isatorischer Rahmen. Die 
Grunde dafur liegen sicher zum Teil in dem 
starken Denken in Kategorien (Spezial isten- 
tum), der zumindest im Vergleich mit der USA 
geringen Anzahl von Evaluatoren, dieuberdies 
Evaluationsarbeiten nuralseinen relativen klei- 
nen Teil ihrer beruflichen Tatigkeit wahmeh- 
men, und vielleicht noch immer in wechsel- 
seitigen emotionalen Vorbehalten zwischen 
Evaluatoren mit unterschiedlicher Ausbildung 
und unterschiedlichen beruflichen Tatigkeiten 
(«Wir arbeiten in einem Gefangnis, nicht in ei- 
ner Bank!», »Was sollen wir in der Wirtschaft 
ausErfahrungen in Kliniken lernen? Wirhaben 
Fuhrungskrafte und Mitarbeiter, aberdoch kei- 
n e Verru ckten ! », «W i r si n d ei n e psych i atri sch e 
Klinik, aberdoch kein Gefangnis!*). Im Prinzip 
muRteesmoglich sein, die hier genannten Ur- 
sachen zu uberwinden Oder doch zumindest 
stark zu reduzieren, doch durfte es noch eine 
langere Zeit dauern, bis annahernd die Bedin- 
gungen in den USA auch hier geschaffen wer- 
den. 



3.2.2 Vergleich BRD/ USA: Stand 
der Evaluationsforschung 

Die Evaluationsforschung ist eine noch junge 
Wissenschaftsdisziplin. Wenn man von eini- 
gen Vorlaufern in den dreiRiger und vierziger 
Jahren absieht, entstand sie Anfang bis Mitte 
der sechziger Jahre in den USA vor allem in 



Verbindung mit den Reformprogrammen der 
Regierung unter Prasi dent Johnson. 

Mit diesen und spater folgenden sozial-po- 
I itischen Programmen war von Anfang an der 
Auftrag verbunden, die Wirkung dieser MaR- 
n ah men zu uberprufen. Die Evaluations- 
studien wurden dabei in der Regel sogar ge- 
setzlich vorgeschrieben, sowie eigens Mittel 
fur sie bereitgestellt (vgl. Lange, 1983). 

Heute ist die Evaluationsforschung in den USA 
zu einem festen Bestandteil bei der Implemen- 
tierung neuer, innovativer Programme und zur 
Uberprufung der Wirksamkeit laufender Pro- 
gramme geworden : 

«... the use of evaluation procedures has 
been diffused during the past few years, 
and such procedures are now common- 
place at all levels of government, among 
private foundations, and among commer- 
cial and industrial organisations.* (Rossi 
and Freeman, 1985) 

Das Feld der Evaluationsforschung war Ende 
der achtziger Jahre der starkste Wachstums- 
sektor innerhalb der amerikanischen Sozialwis- 
senschaften. Die sich hieraus ergebenden un- 
tern eh meri sch en Moglichkeiten fuhrten dabei 
zur Entwicklung eines neuen Dienstleistungs- 
bereiches, in dem sich fur Sozialwissenschaftler 
und Psychologen in einem bisher nicht be- 
kannten AusmaR Handlungschancen und be- 
rufliche Entwicklungsmoglichkeiten bieten. 

Eine Reihe neuer Unternehmen wurde ge- 
grundet, diesich der Evaluationsforschung wid- 
men. Andere Organisationen, diezuvor in der 
Marktforschung und Testentwicklung fest ver- 
ankert waren, erweiterten ihren Aufgaben be- 
reich durch die Erfolgskontrolle von MaRnah- 
men und Programmen. 

Es zeichnet sich bereits die Entwicklung ei- 
ner neuen Profession des «Evaluators» ab, was 
sich u.a. in derGrundungmehrererBerufsorgani- 
sationen manifestiert, die sich ausschlieRlich 
mit Evaluationsforschung beschaftigen (vgl. 
Rossi, 1984) Auch an den Universitaten besitzt 
der Anteil der Evaluationsforschung inzwischen 
einen betrachtlichen Umfang. 

Es wurde bereits mit speziellen Trainingspro- 
grammen sowohl innerhalb von Ausbildungs- 
gangen alsauch fur Graduierte begonnen. Die 
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Nachfrage nach ausgebildetem Personal fur 
Evaluationstatigkeiten wachst. 

Dabei hatsich im Laufe der Jahre bereits ein 
neues Verstandnis des Evaluationsvorgehens 
entwickelt. Beywl und Geiter ( 1997, S.75) spre- 
chen auch von einem «paradigmatischen Wan- 
del»in der Evaluationsdisziplin: 

«Die technische Perfektion der eingesetzten 
Untersuchungsinstrumente und -designs, wie 
sie in der allein akademisch gepragten Eva- 
luationspraxisbisin die si ebziger Jahre vorherr- 
schend war, reicht heute als Qualitatsausweis 
nicht mehr hin. Dazukommen muR von Be- 
ginn an eine klare Dienstleistungsorientierung 
an den Informationsinteressen der Evaluation s- 
benutzer, zu denen nicht nur Auftraggeber und 
Finanziers, sondern auch anderewichtigeBetei- 
ligtengruppen zahlen. Die Verantwortung des 
Evaluators/der Evaluatorin wird uber techni- 
sche Fragen hinaus auf soziale und politische 
Aspekte ausgeweitet, bis hin zur Berucksich- 
tigung des allgemeinen und offentlichen 
Wohls.» (Beywl und Geiter, 1997, S.75) 

Diese neue Evaluationssichtweise wird auch 
in einem wichtigen Dokument des «Joint 
Commitee on Standards for Educational Eva- 
luation» verdeutlicht (vgl. Joint Committee on 
Standards in Educational Evaluation, 1994) das 
erstmals anerkannte Standards fur die Evaluati- 
on von Programmen in den USAaufzeigt. 

In der Bundesrepublik setzte die Evaluations- 
forschung erst spater, Ende der sechziger, An- 
fan g der si ebzi ger J ah re ei n . 

AlsUrsachesind auch hier politische Reform- 
programme zu sehen, vor allem im Bereich der 
Schul- und Bildungsplanung. In Verbindung 
mitdiesen politischen ReformmaRnahmen hat 
dieEvaluationsforschung in den letzten beiden 
Jahrzehnten eine sturmische Entwicklung 
durchlaufen, dieallerdingsgegenuber der ame- 
rikanischen Evaluationsforschung nicht nur 
verzogert, sondern auch sehr viel unstetiger ver- 
lief und sich in ihrer inhaltlichen Ausrichtung 
und kommerziellen Form unterscheidet. Eine 
echte Professionalisierung speziell der Evalua- 
toren beginnt mit einzelnen Angeboten von 
Weiterbildungs- und Postgrad uierten program- 
men nur sehr langsam, einschlagige Berufsver- 
bandeo.a. fehlen (derzeit noch). Allerdingsge- 
wann die Evaluationstatigkeit selbst erheblich 
an Umfang, doch werden diese Arbeiten uber- 



wiegend entweder durch sich anders definie- 
rende Berufsgruppen (zum Beispiel Markt- und 
Meinungsforscher, Mitarbeiter des betriebl i - 
chen Bildungswesens, Controller) Oder von uni- 
versitatsnahen Arbeitsgruppen durchgefuhrt. 



3.2.3 Strukturelle Gemeinsam- 
keiten «idealer» Evaluationsstudien 

Durch den Uberblick in den vorangegangenen 
Abschnitten wurdedeutlich, daR esim Bereich 
der Evaluationsforschung eine Reihe zum Teil 
stark divergierender Ansatze gibt. Der Grund 
hierfur liegt darin, daR die vielen verschiede- 
nen Formen und Modelleder Evaluation alle 
f u r spezi f i sch e An wen d u n gsberei ch e en twi ckel t 
wurden. 

Auf der Grundlage der Ausfuhrungen in Ab- 
schnitt 3.1 lassen sich jedoch die strukturellen 
Gemeinsamkeiten von «idealen» empirischen 
Evaluationsstudien herausarbeiten, die sich 
zwar kaum je vollstandig in konkreten Projek- 
ten identifizieren lassen (s. dazu 3.3), die aber 
in gewissem Sinn ein gemeinsamesLeitbild des- 
sen, darstellen, was Evaluatoren bei ent- 
scheidungsbezogenen Evaluationen erreichen 
sollten - und auch konnten, sofern man fur sie 
von Seiten der Auftraggeber wirklich optimale 
Bed in gun gen schaffen wurde. 

Strukturelle Kennzeichen von Evaluations- 
studien: 

1. Umfassende, explizite Klarung der wirkli- 
ch en Zielsetzungen des Auftraggebers; fur 
diedamit verbundenen erheblichen Proble- 
mes. Abschnitt 3.1.1 

2. Exakte konsensfahige Beschreibung der zu 
evaluierenden Alternativen; dies ist vor al- 
lem schwierig, wenn entweder relativ vage 
Oberbegriffe die Grundlage der Alternati- 
ven beschreibung sind (Was ist wirklich, im 
Detail empirisch-konkret, «Gesamtschule», 
«offener Vollzug» Oder «verkehrsberuhigte 
Zone»?) Oder gerade bei formativer Evalua- 
tion zu Beginn des Projektes noch gar ab- 
schlieRend feststeht, welche Modifikatio- 
nen der Ausgangssituation moglich bzw. 
wunschenswert sind. 

3. Explizite und zeituberdauernde Festlegung 
der Bewertungskriterien, einschlieRlich der 
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zu verwendenden MaBe bzw. Erhebungs- 
instrumente, vor Beginn des Projektes; hier 
i st immer wieder festzustellen, daB nach 
Vorliegen der Ergebnisse doch, trotz allem 
Bemuhen des Evaluators, erganzende As- 
pekte «nachgeschoben» Oder zuerst fur 
wichtig erachteteabgewertet werden, wenn 
dieResultatenichtden (offenen oderimpli- 
ziten) Erwartungen entsprechen, zumindest 
von Teilgruppen der von den Ergebnissen 
Betroffenen. 

4. Aufstellung konsensfahiger Entscheidungs- 
regeln, die fur alle moglichen Ergebnisse 
eine eindeutige Handlung der Evaluatoren 
bzw. Auftraggeberermoglichen; diesisteine 
wichtige, aber aus den zu Ziffer 3 genann- 
ten Grunden nur in wenigen Projekten 
wirklich realisierbare Forderung. Die man- 
gelnde Beachtung dieser «idealen» Regel hat 
leider wesentlich zu einer Abwertung der 
Evaluationsarbeit (vor allem in der Form 
von «Gutachten») in der offentlichen Mei- 
nung gefuhrt. 

5. Eine der Beschreibung vollstandig entspre- 
chende Realisierung der zu evaluierenden 
Alternativen bzw. Auswahl geeigneter Rea- 
lisierungsformen; hier entstehen Probleme 
weniger aus den antizipierten Folgen prak- 
tisch wichtiger Entscheidungen, sondern 
aus Ressourcenbegrenzungen und rechtli- 
chen Vorgaben, zum Beispiel Beschrankung 
von Personen in «Experimentalbedingun- 
gen (zum Beispiel neue Schulformen, The- 
rapien, Wohnbedingungen ...) auf Freiwilli- 
ge, und zwar sowohl als Akteure (Lehrer, 
Therapeuten) als auch als Datentrager 
(Schuler, Patienten, Flaushalte ...). 

6. Representative Beteiligung aller Betroffenen 
an der Planung und Durchfuhrung der Er- 
hebungen; dieser sehr wichtigen Ideal- 
forderung stehen manchmal inhaltliche 
Bedenken entgegen. So kann die Aufkla- 
rung uber die Ziele der Evaluation selbst 
eine sehr wichtige Intervention sein und 
entsprechendeVerzerrungen auslosen (zum 
Beispiel besonderes Engagement von Um- 
schulungsteilnehmern, wenn Sie wissen, 
dalS von ihren Ergebnisse die weitere Fi- 
nanzierung der MaBnahme abhangt ) Oder 
einezielorientierteVerzerrung der Datener- 
hebung, wenn bekannt ist, welche Er- 
gebnisse zu welcher Entscheidung fuhren 



sollen («Wir wollen, daB die forensische 
Klinik bei uns geschlossen wird - und ful - 
len die Fragebogen zu Belastigungen etc. 
daher so aus, daft die Ergebnisse unserem 
Wunsch zur Durchsetzung verhelfen!»). 
Daruber hinaus sind wegen der oft nicht 
vermeidbaren Frei wi 1 1 igkeit der Datenerhe- 
bung Verzerrungen der Stichprobe (zum 
Beispiel hundertprozentige Beteiligung der 
M inderheit von «Aktivisten», extrem gerin- 
ge Beteiligung der groBen Zahl von «Unin- 
teressierten») kaum zu vermeiden (fur eine 
interessanten Losungsansatz s. 4.3.3). 

7. Ausschaltung aller Stor- und Beeinflussungs- 
versuche von AuBen wahrend der gesam- 
ten Dauerder Datenerhebungen; bei Labor- 
untersu chun gen durchaus weitgehend 
realisierbar, aber sehr schwierig bei Feld- 
studien mit hohem politischem Interesse 
und einer entsprechenden Berichterstat- 
tung, zum Beispiel in Massenmedien Oder 
bei Versammlungen der Betroffenen. Auch 
treten immer wieder Fehlattributionen auf 
(Geruchte uber die Projektziele, personelle 
Veran derun gen, die zu unrecht als Projekt- 
folge interpretiert werden, Verquickung mit 
zum Beispiel politischen Vorgangen wie 
Kommunalwahlen etc.), die vorher schwer 
kalkulierbar und auch bei groBter Muhe 
nicht zuverlassig vermeidbar sind. 

8. Zusatzliche Aufnahmealler zunachst uber- 
seh en en , aber vern u nfti ger Wei se zu beach - 
tenden Aspektein dieEntscheidungsregeln 
gemaB Ziffer 3; da auch bei guter Planung 
solche Erganzungen oft notwendig wer- 
den, stellt sich dann die Frage, was «ver- 
nunftig», und was interessensgeleitet ist 
(vgl. Ziffer 3). 

9. Bei veranderten Rahmenbedingungen und 
bei m Auftreten neuer Alternativen konsens- 
maBigeAnderungder Entscheidungsregeln, 
die Probleme sind hier analog zu Ziffer 8. 

10. Beibehalten des Konsens uber die Vorge- 
hensweise im Projekt auch nach Vorliegen 
der evaluationsgestutzten Entscheidung; 
dies ist unter sehr gunstigen Bedingungen 
mit «harten» Messungen (zum Beispiel im 
Rah men des Qualitatsmanagements nach 
ISO 9000, s. Abschnitt 2.2.4) durchaus mog- 
lich, auch bei der evaluationsgestutzten 
Entwicklung von Instrumenten und Tech- 
niken. Je «politischer» und «weicher» die 
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Studie aber ist, um so seltener ist diese For- 
derung zu realisieren. 

11. Storu n gsfrei e Real isierungderEntscheidung 
(s. dazu Ziffer 10). 

Es ist selbstverstandlich, daR dieses «i deale Mo- 
del I » nie vollstandig erreichbar ist, und daR die 
Wissenschaft nur Beitrage zu einer relativen 
Verbesserung beitragen kann. Dies sol Ite bei 
den im folgenden Abschnitt dargestellten drei 
konkreten Studien bedacht werden. Die in die- 
sen Ausfuhrungen auch aufgezeigten relativen 
Schwachpunkte sind in keiner Weise als Kritik 
an der Kompetenz der Evaluatoren gedacht, 
sondern sollen nurdieechten Schwierigkeiten 
von Evaluationsprojekten verdeutlichen. 



3.3 Grundlagen und 
Probleme der Evaluations- 
forschung dargestel It am 
Beispiel konkreter 
Evaluationsprojekte 

In den folgenden drei Abschnitten wird ver- 
sucht, einen Eindruck von der konkreten Pro- 
jektarbeit zu geben. Die Darstellung kann nur 
auszugsweise, mit notwendigerweise subjekti- 
ver Schwerpunktsetzung, erfolgen; fureineaus- 
fuhrliche Auseinandersetzung mit den bespro- 
chenen Arbeiten solltedaher unbedingt auf die 
jeweils angegebene Originalliteratur zuruckge- 
griffen werden. 

3.3.1 Evaluation in der Wirtschaft 

Die Evaluation hat in der Wirtschaft langst ei- 
nen festen Platz. Hierfinden jedoch ublicher- 
weise die Begriffe «Kontrolle» Oder «Controll- 
ing» Verwendung. 

In den funfziger Jahren wurde der Kontroll- 
begriff in der wirtschaftswissenschaftlichen Li- 
teraturnoch rechtengausgelegt. Kontrolleum- 
f aRt vorwi egen d d i e n ach tragi i ch e U berpruf u n g 
der Ausfuhrung, sowieden Vergleich der Ergeb- 
nissemitden geplanten Zielen und warorgani- 
satorisch eng mit dem Rechnungswesen ver- 
knupft. 



Mit dem Aufkommen informationstheore- 
tischer und systemorientierter Ansatze vergro- 
Rertesich der Stellenwert der Kontrollfunktion 
erheblich. Kontrolle wurde als Voraussetzung 
dafur erkannt, Fehler in der Planung Oder Feh- 
ler in der Realisation zu erkennen und entspre- 
chende MaRnahmen zu deren Beseitigung zu 
ergreifen. Diese Auffassung hebt bewuRt vom 
Kontrollieren alter Pragungab, indem dasstati- 
scheMomentdesSoll-lst-Vergleichessich in ei- 
nem dynamischen «control»-ProzeR auflost. 

Fleute ist Kontrolle deshalb als wesentliche 
Managementfunktion in der Wirtschaft unbe- 
stritten (vgl. Siegwart und Menzel, 1978, Prohl, 
1981, Ziegenbein, 1984). «Controlling laRtsich 
... als ein Konzept der Unternehmensfuhrung 
durch Planung, Information, Organisation und 
Kontrolle bezeichnen. Ihren konkreten Bezug 
findet diese Art der Unternehmensfuhrung 
durch Zielvorgabe, Abweichungsanalyse und 
Einleitung von GegensteuerungsmaRnahmen 
in der Person und Stelle des Controllers^ 
(Bramsemann, 1978, S. 31). Pfohl (1981, S. 17) 
unterscheidet innerhalb des Managements ei- 
ner Unternehmung sechs M an agementsu b- 
sy steme: 

• Politik 

• Planung 

• Kontrolle 

• Organisation 

• Fuhrung 

• Managemententwicklung 

Die Gestaltung effizienter Kontrollsysteme ist 
in alien betrieblichen Funktionsbereichen wie 
Produktion, Finanzierung Oder Beschaffung fe- 
ster Bestandteil. 

Besonders effiziente Kontrollsysteme findet 
man in den Bereichen der Kosten- und 
Investitionskontrolle. Diagramm III/ 7 gibt einige 
Beispiele solcher Kontrollinstrumente (nach 
Wohl, 1986). 

GroRere Schwierigkeiten bringt die Gestal- 
tung effizienter Kontrollsysteme im betriebli- 
chen Bildungswesen, im Marketing- und Orga- 
nisationsbereich mit sich (vgl. Bronner und 
Schroder, 1983). 

D i e FI au ptprobl emati k ergi bt si ch h i er aus der 
Nichtanwendbarkeit herkommlicher betriebs- 
wirtschaftlicher Kontrollsysteme auf diese Be- 
reich. Weitere Probleme I i egen 
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• im mangelnden KontrollbewuRtsein seitens 
der Verantwortlichen, 

• in mangelnder Akzeptanz von Evaluations- 
versuchen bei den Beteiligten, 

• in fehlenden Kontrollinstrumenten, 

• in Zeit- und Personalmangel, 

• in einem Mangel an allgemein anerkannten 
Kriterien zur Erfassung des Erfolges, 

• in der mangelnden Qualifizierbarkeit der Er- 
folge, 

• in derTatsache, daft alle genannten Bereiche 
kei n sichtbares I nvestitionsobjekt verkorpern . 

Zwar gibt es sowohl im Marketing- und Bil- 
dungsbereich, als auch im Organisationsbe- 
reich genu gen d Evaluierungsversuche, doch 
sind diese oft durch recht einfache Kontroll- 
techniken ausgezeichnet, deren Aussage- 
fahigkeit stark begrenzt ist (vgl. Will, Winteler, 
Krapp, 1987). 



Fallbeispiel 1: Weiterbildungserfolg 

Im folgenden wird auf der Grundlage der in 
Abschnitt 3.2.3 dargelegten Beschreibungs- 
merkmale eine kurze Zusammenfassung einer 



Untersuchung von Berthold etal. (1980) darge- 
stellt. Dabei ist hervorzuheben, daft essich um 
eine der wen igen Arbeiten im deutschsprachi- 
gen Raum handelt, die versucht, den Wei- 
terbildungserfolg in systematised er Form mit 
Hilfe psychologischer Meftinstrumente zu er- 
mitteln. 

1. Problemstellung 

Systematische Versuche einer Erfolgskontrolle 
in der betrieblichen Weiterbildung sind recht 
selten. In der vorliegenden Untersuchung wurde 
festgestellt, ob die Durchfuhrung von drei 
Kommunikations- und Kooperation strainings 
fur Fuhrungskrafte des unteren und mittleren 
M anagements auf das Verhalten der zwischen- 
menschlichen Interaktion im beruflichen All- 
tag Auswirkungen zeigt. 

2. Evaluationsobjekt 

Evaluationsobjektesind zum einen dieTeilneh- 
mer derVerhaltenstrainings(68 Fuhrungskrafte 
des unteren und mittleren Managements), zum 
anderen erfolgte eine Bewertung der drei 
Kommunikations- und Kooperation strainings. 



Diagramm III/ 7 

Beispiele fur Kontrollinstrumente in der Kosten- und Investitionskontrolle (Der Bundes- 
ministerfur Bildung, Wissenschaft, Forschung und Technologie, 1977) 


Methoden der Informationserarbeitung 


• G run dlagen analyse 


und -verarbeitung 


• ABC-Analyse 

• Kennzahlensysteme, z.B. Return in investment, cash-flow-Rate, 
D ec ku n gsbei t rags- 1 n t en si tat 

• Checklisten-Technik 

• Technizitatsanalysen 

• Wertanalysen 

• Nutzwertanalysen 

• Zero-Base-Budgeting 

• Gewinnschwellenanalyse 

• Plankostenabrechnung 

• Methoden der Gemeinkostenplanung 

• Budget-Handbuch 


Planungsmethoden 


• Kennzahlensysteme zur Zielplanung 

• Netzplantechnik 

• Management by Objektives 


Kontrolltechniken 


• Indirekte Korntrolle 

• Prufmatrix 

• Kostenkontrolle durch Festlegung von Preisabweichungen, 
M en gen abwei ch un gen , Beschafti gun gsabwei ch un gen 
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3. Ort der Evaluierung 

Es handelt sich bei der Untersuchung um eine 
Evaluations im Feld. Der Einsatz der Evalua- 
tions! nstrumente erfolgte vor, wahrend und 
nach dem Seminar im Betrieb bzw. im Schu- 
lungsraum. 

4. Zidsetzung 

Ziel der Untersuchung war es, festzustellen, ob 
eventuelleVerhaltensanderungen der Seminar- 
teilnehmer auf Einflusse des Trainings zuruck- 
zufuhren sind. Damit einher geht die Zielvor- 
stellung zu beweisen, daft ein gut konzipiertes, 
lernorientiertes Verhaltenstraining tatsachlich 
Veranderungen bei den Teilnehmern bewirkt. 

Ein zusatzliches Ziel der Autoren durfte die 
Aquisation von Auftragen in der Wirtschaft ge- 
wesen sein. 

5. Design und Untersuchungsmethodik 

Zur Erfassung desSeminarerfolgeswurden acht 
versch i eden e Erh ebungsi n strumente ei n gesetzt: 

• Vorgesprach mit Fragebogen 

• Ratingskala zum Selbst- und Fremdbild 

• SeminarabschluGfragebogen 

• Fragebogen an die Teilnehmer (Zweit- und 
Drittbefragung) 

• Fragebogen zur Selbstaussage der Seminar- 
teilnehmer 

• Kurzseminar und Fragebogen zur Endaus- 
wertung 

• Fragebogen zur Vorgesetzten-Verhaltens-Be- 
schreibung 

• Interviews von Kollegen, Mitarbeitern und 
Vorgesetzten durch Trainer Oder Interviewer. 

Durch die Erfassungsinstrumente sollten vor 
allem Aussagen der Seminarteilnehmer uberei- 
nen Wandel im eigenen Verhalten den Beob- 
achtungen ihrer Kollegen und Mitarbeiter ge- 
gen u bergestel 1 1 werd en . 

Diedrei sechstagigen Train ingserstreckten sich 
uber jeweils drei Wochen (imjuni, September 
und Februar) und dauerten in der Wochezwei 
Halbtage jeweils von 13 Uhr bis 19 Uhr (50% 
Arbeitszeit, 50% Freizeit). 



An den Trainings nahmen 68 Fiihrungskrafte 
desunteren und mittleren Managements eines 
groGen Munchener metallverarbeitenden Un- 
tern eh mens tei I . Esgab zwei Trainingsgruppen 
(T1 und T2) und eine Kontrollgruppe. DieZu- 
teilung zu den einzelnen Gruppen erfolgte 
nicht durch Randomosierung. Eswurdejedoch 
versucht, dieGruppen, zu parallelisieren. 

Die Fuhrungskraftetrainings wurden jeweils 
von einer externen Psychologin und einer fir- 
men internen Fuhrungskraft durchgefuhrt. 

Das Design der Untersuchung hat aufgrund 
der zahlreichen unterschiedlichen Meftinstru- 
menteeinerelativ komplexe Struktur (su.). 

Grundlegend orientiert sich die Meftkonzep- 
tion an einem Vergleich der Train ingsgruppe 
T1 mit der Trainingsgruppe T2, sowie einem 
Vergleich der beiden Trainingsgruppen mit der 
Kontrollgruppe. Nach vollzogenen Vergleichs- 
messungen erhielt die Kontrollgruppe das glei- 
cheTraining wie die beiden Trainingsgruppen. 
In Diagramm III/ 8 ist der Untersuchungsplan der 
Stud i e wi edergegeben . 

Auf die im Rahmen der Auswertung verwen- 
deten Verfahren gehen die Autoren nicht ein. 
Der Text enthalt lediglich eine deskriptive Aus- 
wertung des Daten materials. 

6. Evaluationsmodell 

Die Untersuchung von Berthold et. al. enthalt 
sowohl Elemente einer summativen, als auch 
einer formativen Evaluation. 

Von der Seminarplanung biszurTransferphase 
unterliegt die Untersuchung einer fortlaufen- 
den formativen Evaluation (zum Beispiel durch 
Anpassung der Lernziele an die Gegebenheit 
am Arbeitsplatz, die Operationalisierung der 
Lernzieleauf bestimmteTrainingsinhalte, usw.). 

Im Rahmen des Vergleichs der beiden Trai- 
ningsgruppen untereinander bzw. der Trai- 
ningsgruppen mit der Kontrollgruppe kann 
man von einer summativen Evaluation spre- 
chen. 

7. WichtigeErgebnisse 

Als wesentliche Ergebnisse der Untersuchung 
halten die Autoren test: 
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• DieTeilnehmeran den Fuhrungskrafte-Schu- 
lungen meinen zu einem gro&en Prozentsatz, 
siehatten sich durch das Seminar verandert. 

• Diese Veranderung wird auch von Kollegen 
und Mitarbeitern wahrgenommen, jedoch 
von einem geringeren Prozentsatz. 

• DieAnzahl der berichteten Veranderungen 
verringert sich, je grower der zeitliche Ab- 
stand zum Training wird. 

• Ein gewisser Interviewer-Effekt im Sinneei- 
ner unbewuBten Beeinflussung durch eine 
Erwartungshaltung besteht. 

• Ein Teil der Veranderungen muB durch das 
Training entstanden sein, da Mitglieder der 
Kontrollgruppe, die also kein Training mit- 
gemacht haben, als nicht verandert einge- 
stuft werden . 



8. AbschlieBendeKritik 

Vorteile der Untersu chung: 

• Es handelt sich um eine der wen igen Unter- 
suchungen, im deutschen Sprachraum, die 
in systematised er Form versucht, den Wei- 
terbildungserfolg zu erfassen. 

• Es wurden eine Kontrollgruppe und zwei 
Train ingsgruppen = Experimentalgruppen 
benutzt, wasstarkereAussagen zulaBt. 

• Die Gruppe Tl, T2 und K wurden vorher 
paral lei isiert, um Selektionseffekte auszu- 
schlieBen. 

• Multivariater Ansatz: Der Weiterbildungser- 
folg wurde mit vielen unterschied lichen Er- 
hebungsinstrumenten uberpruft. 



Diagramm III/ 8 

Untersuchungsplan der Studie von Berthold et. a 1 
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• Die mehrmalige Erhebung von MeGwerten 
zu verschiedenen Zeitpunkten erlaubt Aussa- 
gen u ber d i e Stabi I i tat von Effekten . 

• Es wurden nicht nur verschiedene MeGin- 
strumente benutzt, sondern auch Aussagen 
von verschiedenen Person engruppen gesam- 
melt (Kollegen, Mitarbeiter, Vorgesetzte, 
Eigen aussagen). 

• Die Interviews wurden sowohl von einem 
Trainer als auch einem externen Psycholo- 
gen durchgefuhrt, um Interviewereffekteauf- 
zudecken. 

Nachteileder Untersuchung: 

• DieKontrollgruppewurdenur in zwei Fallen 
benutzt, um Vergleichswerte zu erzielen 
(FVVB, Interview). Warum wurden mit den 
anderen Erhebungsinstrumenten keineKon- 
trollwerte erhoben? 

• Es wurden generell keine Vortestwerte erho- 
ben. Dies schrankt die Aussagekraft der Er- 
gebnisse stark ein. 

• Es wurden relativ schwache (quasi-experi- 
mentelle) Designs benutzt. Wenn dieUnter- 
sucher die Moglichkeit fur so viele Messun- 
gen hatten, warum benutzten siedann nicht 
aussagekraftigere Designs? 

• D i e I ntervi ewereffekte (Vergl ei ch Trai n er/ex- 
terner Psychologe) sind betrachtlich. Hierauf 
wirdjedoch nicht ein gegan gen. 

• Dieverwendeten MeGinstrumentesind bisauf 
FVVB nicht standardisiert. Versuchsleiter- 
effektekonnten hierverstarktgewirkthaben. 

• Ein Vergleich der Ergebnisse von T1 und T2 
untereinanderfindet nichtstatt. 

Weitere interessante Beispiele zur Evaluations- 

arbeit in der Wirtschaft geben Gulden (1996) 

und Gulper (1996). 



3.3.2 Evaluation im Schul- und 
Bildungswesen 

Wiebereitsin Abschnitt 3.2.2 erwahnt, kommt 
der Evaluation im Bereich der Schul- und 
BildungsplanungeinebesondereBedeutung im 
Zusammenhang mit der Entwicklung der 
Evaluationsforschung in der BRD zu. 

Nach Prell (1984) wurde bereits in den funf- 
zigerjahren parallel zu den einsetzenden Schul- 



versuchen nach 1945 uber Schulbegleitfor- 
schung diskutiert. 

In den folgenden Jahren nahm daslnteresse 
an der wissenschaftlichen BegleitungderSchul- 
versuche immer mehrzu. Diedeutlich erkenn- 
baren Mangel des Bildungssystems waren nur 
durch Reformprogramme zu beheben. Diese 
machten eine gleichzeitig dazu stattfindende 
Schul begleitforschung im Sinneeiner Kontroll- 
funktion notwendig. So war die Schulbegleit- 
forschung von Anfang an eng mit der Bildungs- 
politik verzahnt. 

Bund und Lander fuhren bereits seit 1971 
gemeinsam ein umfangreiches Programm mit 
Modellversuchen durch, das Entscheidungshil- 
fen fur die Entwicklung des Bildungswesens lie- 
fern soil. Grundlage hierzu war eineGrundge- 
setzanderung (Art 91b) auf Grund derer die 
Bund-Lander-Kommission fur Bildungsplanung 
(BLK) 1971 eine«Rahmenvereinbarung zur ko- 
ordinierten Vorbereitung, Durchfuhrung und 
wissenschaftlichen Begleitung von Modellver- 
suchen im Bildungswesen » beschloG (BLK, 
1978, S. 13 ff.). 

Die Fulle der Aktivitaten und Veroffentlich- 
ungen im Rahmen der Schulbegleitforschung ist 
heutekaum noch zu durchschauen. Einen Uber- 
blick uber verschiedene Problem bereiche geben 
etwa Mitterund Weishaupt(1977), Hellstern und 
Wollmann (1984) Oder Wottawa (1982). 

EineVielzahl der bereits erwahn ten Evalua- 
tionsmodelle stammt ebenfalls aus dem pad- 
agogischen Bereich (vgl. etwa die Modelle von 
Wulf 1972, Scriven 1972, Stufflebeam 1972, 
Alkin 1972). Baumert (1981, S. 1) definiert heu- 
tige Schulbegleitforschung folgendermaBen: 

«Padagogische Begleitforschung la I3t sich 
als spezielle Form empirischer Bildungs- 
forschung auffassen. Sie ist eine in sich 
variable Form von Feldforschung, die an 
padagogische Innovationen, uberwiegend 
Schulversuche, gebunden ist.» 

Die wesentlichen Aufgaben wissenschaftlicher 
Schulbegleitforschung lassen sich nach Prell 
(1984, S. 21ff.) wiefolgt beschreiben: 

• Auf die Planung und Durchfuhrung des 
Schulversuchesgerichtete Beratung 

• Mitwirkung im Sinne von innovatorischer, 
erziehungstechnologischer Forschung 



Einsatzgebiete psychologischer Evaluation 75 



• Bewahrungs- und Effizienzkontrolle Oder 
Evaluation auf drei Vergleichsebenen: dem 
Intersystemvergleich, dem Intrasystemver- 
gleich, dem systemimmanenten Vergleich; 

• M itbetei I igun g der eigentlichen Trager des 
Modellversuches, namlich der Lehrer, Schu- 
ler und Eltern, am Schulversuch 

• Abschatzung der Wirkung der veroffentlich- 
ten Ergebnisse und der darausgezogenen Er- 
kenntnisseauf dieOffentlichkeit und die Bi I- 
dungspolitik. 



Fallbeispiel 2: Curriculumsentwicklung 

Die Grundlagen und Problemeder Evaluation 
im Schul- und Bildungswesen sollen hier am 
Beispiel einer Curriculumevaluation von 
Seiffge-Krenke, 1981 dargestellt werden: 

1. Problemstellung 

Im Gegensatz zum Padagogikunterricht ist der 
Psychologieunterricht in der Sekundarstufe II 
seit seiner Einfuhrung kaum Gegenstand fach- 
wissenschaftlicher Diskussionen gewesen. Die 
si ch u ber f u n f J ah re erstrecken de U n tersuch u n g 
von Seiffge-Krenke schildert den Prozeft der 
Entwicklung und Erprobung eine Psychologie- 
curriculums fur die Sekundarstufe 1 1 . 

2. Evaluationsobjekt 

Das eigentliche, auch explizit genannte, Eva- 
luationsobjekt ist das Psychologiecurriculum 
von Seiffge-Krenke. Dies wird im Vergleich zum 
traditionellen Psychologieunterricht getestet. 
(Problem der Selbst-Evaluation). Schuler, Lehrer 
und Unterrichtsmethoden durfen jedoch alsEva- 
luationsobjektenichtausgeschlossen werden. 

3. Ort der Evaluierung 

Die einzelnen Untersuchungen wurden an zwei 
GieftenerGesamtschulen durchgefuhrt. Eshandelt 
sich often si chtlich um eine Evaluation im Feld. 

4. Zidsetzung 

DieZielsetzung der Untersuchung lag in der Ent- 
wicklung und Erprobung eines Psychologie- 
curriculums. Dies baute auf sieben Lernzielen auf: 



• Sachkompetenz 

• Fragehaltung 

• Kritisches Den ken 

• Komplexes Denken 

• Wissenschaftliche Einstellung 

• Kompetenzmotivation 

• Transfer 

Eben diese Faktoren so 1 1 ten bei den Schulern 
durch das neue Psychologiecurriculum gefor- 
dert werden. 

5. Design und Untersuchungsmethodik 

Der Prozeft der Entwicklung und Erprobung des 
Psychologiecurriculums erstreckte sich uber 
funfjahreund war in folgendePhasen abgrenz- 
bar: 

1. Analyse des Bedingungsfeldes 

2. Entwicklung eines Psychologiecurriculums 

3. Erprobung des Psychologie-Curriculums 
3a) Prototypphase 

3b) Phase der Institutionalisierung 

Zu 1: Analyse des Bedingungsfeldes 
Die Untersuchungen im Rahmen der Bedin- 
gungsanalyse bezogen sich auf folgende Pro- 
blem bereiche: 

• DieSchulealssozialer Ort; 

• Die psychische Struktur von Oberstufen- 
schulern und ihre Erwartungen an den 
Psych o I ogi eu n terri ch t; 

• Die Entwicklung des Psychologieunterrichts 
und affiner Facher; 

• Der Stand der Curriculumsforschung. 

Die Funktion der Bedingungsanalyse bestand 
darin, Akzenteund Perspektiven des Problems 
zu beleuchten und moglichstfruh Defiziteund 
Problemezu identifizieren, diefur die Entwick- 
lung eines Psychologiecurriculums relevant 
sein konne. am Ende der Analysen im Vorfeld 
wurdeein Problemkatalog formuliert. 

Zu 2: Entwicklung eines Psychologiecurriculums 
Die Entwicklung des Psychologiecurriculums 
baute auf den Ergebnissen der Bedingungs- 
analyse auf. Dabei wurdedavon ausgegangen, 
daft wissenschaftlichesDenken und Denken im 
Alltag keine grundsatzlich verschiedenen For- 
men des Denkens sind, sondern, daft Unter- 
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schiede lediglich im Niveau, nicht aber in der 
Art des Denkens bestehen. 

Die Entwicklung des Psychologiecurriculums ist 
zu unterteilen in 

• den ProzeR der Lernzielgewinnung 

• die Neukonstruktion der Inhaltsstruktur 

• und die Entwicklung einer didaktisch-me- 
thodischen Unterrichtskonzeption. 

Zu 3: Erprobung des Psychologiecurriculums 
DieeigentlicheEvaluation desCurriculums, die 
diePrototypphaseund die Phase der Institutio- 
nal i si erung umfa&te, erstrecktesich uber einen 
Zeitraum von funfjahren (von 1974 bis 1979). 
SieumfaRtediefolgenden Teilstudien: 

• Experimental-Kontrollgruppenstudie (Ver- 
gleichende Evaluation) 

• Repl i kati onsstud i e ( Kreuzval i d i erun g) 



• Stabilitatsmessung 

• Expertenstudie 

An den Studien n ah men insgesamt 240 Schu- 
ler der Sekundarstufe II zweier GieRener Ge- 
samtschulen, sieben Psychologielehrer und 21 
Psychologiedozenten teil. 

Das Diagramm III/ 9 gibt das Design der Unter- 
suchung und die verwendeten Evaluations- 
instrumente der summativen und formativen 
Evaluation wieder. 

Die Daten aus der formativen und summa- 
tiven Evaluation des Psychologiecurriculums 
wurden durch parametrische und deskriptive 
Verfahren ausgewertet. 

6. Evaluationsmoddl 

Eswurdevon der Autorin eineEvaluationsstrategie 
entwickelt, die die Vorteile des experimentellen 



Diagramm III/ 9 

Untersuchungsplan derStudie von Seiffge-Krenke, 1981 



Zeitlicher 
A hi r i if 


El 


E2 


K1 


K2 


1974 




Pre-Test 


Pre-Test 


Pre-Test 


Pre-Test 






Einfuhrung in die 
Psych ologie 


Einfuhrung in die 
Psych ologie 










UE 1 <Wahmehmung >:> 
U E-Test 

<Wahrnehmung» 


UE 1 <Wahrnehmung» 
U E-Test 

<Wah rnehmung» 


Psych o 1 ogi eu n terr i ch t 
nach anderer Konzeption 


Psy ch o 1 ogi eun terr icht 
nach anderer Konzeption 






Schulerevaluation derUE 
<Wahrnehmung» 


Schulerevaluation derUE 
<Wah rnehmung» 






1975 




UE 2 <Gedachtnis» 


UE 2 <Gedachtnis» 










UETest <Gedachtnis» 


Gesamtevaluation des 
Curriculums (Schuler) 










Schulerevaluation der UE 
<Gedachtnis» 


Post-Test 




Post-Test 






UE 3 <Sprache» 
UE Test <6prache» 








1976 




Gesamtevaluation des 
Curriculums durch 
Schuler 












Post-Test 




Post-Test 








El 


E2 


K1 


K2 






Nachbefragung 
Pre-Post-T est 


Nachbefragung 

Pre-Post-Test 


Nachbefragung 

Pre-Post-Test 
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E3 


E4 


E5 


E6 






Pre-Test 

Einfuhrung in die 
Psych ologie 


Pre-Test 










UE 1 <Wahrnehmung» 


Einfuhrung in die 
Psych ologie 


Pre-Test 








UE-Test <AA/ahmehmung» 


UE 1 <Wahrnehmung» 


Einfuhrung in die 
Psychol ogie 


Pre-Test 






Schulerevaluation derUE 
<Wah rnehmung» 


UE-Test <A/Vahrnehmung» 


UE 1 <Wahrnehmung» 


Einfuhrung in die 
Psych ologie 


1977 




UE 2 <Gedachtnis» 


Schulerevaluation derUE 
<Wahrnehmung» 


UE-Test <Wahrnehmung» 


UE 1 <Wahrnehmung» 






Gesamtevaluation der 
Curriculums durch die 
Schuler 


UE 2 <Gedachtnis» 


Schulerevaluation derUE 
«Wah rnehmung» 


UE-Test <A/Vahrnehmung» 






Post-T est 


UE-Test <<3edachtnis 


UE 2 <Gedachtnis» 


Schulerevaluation der UE 
<Wahrnehmung» 








Schulerevaluation derUE 
<Gedachtnis» 


Gesamtevaluation der 
Curriculums durch die 
Schuler 


UE 2 <Gedachtnis» 






Experten 


UE <Sprache» 


Post-Test 


UE-Test <Gedachtnis» 


1978 




Expertenstudie 

Pre-Post-Test 


U E-T est <Sp rach e» 




Schulerevaluation derUE 
<Gedachtnis» 








Gesamtevaluation der 
Curriculums durch die 
Schuler 




UE 3 <6prache» 








Post-T est 




U E-T est <Sprach e» 


1979 






Post-Test 




Gesamtevaluation der 
Curriculums durch die 
Schuler 
Post-T est 



Vorgehens mit einer detaillierten Analyse 
schulischer Praxis verbinden sollteund zu ei- 
nem veranderten Rollenverstandnis des Eva- 
luatorsund der Funktion von Schulern bei der 
Evaluation desPsychologiecurriculumsfuhren 
sollte. 

Die Strategie ist durch folgende Merkmale ge- 
kennzeichnet: 

• Erprobung des Psychologieunterrichtes un- 
ter praxisnahen Bedingungen 

• Aufgabe der Rollentrennung zwischen Eva- 
luator und Unterrichtendem 

• Einbezug der Schuler in den Evaluations- 
prozeR 



• Verwendung quasi-experimenteller Langs- 
schnittdesigns 

• Erfassung der Langzeitwirkung des Psycho- 
logieunterrichtes 

• Validierung der Effekte 

• Multivariater Ansatz bzgl. der abhangigen 
Variablen 

• Entwicklung und Revision von Unterrichts- 
materialien und Tests 

• Kombi nation von formativer und summa- 
tiver Evaluation 

Bezuglich der Unterscheidung von formativer 

und summativer Evaluation unterscheidet 

Seiffge-Krenke(1981, S. 60 und S. 241) zwischen 

formativer und summativer Fragestellungen : 
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Die Fragestellungen der formativen Evaluation 
betreffen vorallem: 

• Erprobung von Unterrichtsmaterial und lern- 
zielorientierten Testverfah ren : Die im theo- 
retischen Entwurf vorliegenden Unterrichts- 
material ien und Testverfah ren wurden im 
Psychologieunterricht endgultig ausformu- 
liert und adaptiert. 

• Bedingungskontrolle des Unterrichtsverlau- 
fes: Untersuchung hemmender und fordern- 
der Unterrichtsbedingungen, Kontrolle der 
Realisierung der Curriculumintentionen. 

• WirkungdesPsychologiecurriculums: Ermitt- 
lung der kognitiven und affektiven lern- 
zielbezogenen Auswirkungen des Psycho- 
logiecurriculums 

• BeurteilungdesPsychologiecurriculums: Ein- 
schatzung bestimmter curricularer Merkmale 
durch unmittelbar Beteiligte. 

Die Fragestellungen mit summativer Zielrich- 
tung sind im folgenden dargestellt (Seiffge- 
Krenke, 1981. S. 241f.): 

Studie 1: Vergleichende Evaluation 
Fragestellung: Ermittlung der Gute des Psycho- 
logiecurriculums im Vergleich zu herkommli- 
chem Psychologieunterricht (90 Schuler). 

Studie 2: Kreuzvalidierung 
Fragestellung: Replikation von Studie 1: Ermitt- 
lung der Personenunabhangigkeit und Wieder- 
holbarkeit der Effekte(125 Schuler). 

Studie 3: Stabilitatsuntersuchung: 

Fragestellung: Uberprufung der Stabilitat der in 
Studie 1 ermittelten Effekte(62 Schuler). 

Studie 4: Experten studie 
Fragestellung: Ermittlung von externen Krite- 
rien zur Beurteilung der Wirkung des Psycho- 
logiecurriculums (27 Flochschullehrer der Psy- 
chologie). 

7. WichtigeErgebnisse 

• Deutliche kognitive und affektive Umstruk- 
turierung in Richtung einer zunehmenden 
Wissenschaftsorientierung in den Experi- 
mentalgruppen. Eine gegenlaufige Entwick- 
lung ist bei den Kontrollgruppen zu verzeich- 
nen. 



• Stabilitat der erzielten Veranderungen und 
zeitverzogerter Abbau negativer Einstellungs- 
komponenten; 

• Wiederholbarkeit und Personenunabhangig- 
keit der erzielten Veranderungen 

• Veranderungen des Bi Ides von der Psycholo- 
gy 

• Abhangigkeit der erzielten Wirkungen von 
der Lange des Psychologieunterrichtes: Bei 
Schulern, die am kurzeren Psychologieun- 
terricht teilnahmen, zeigten sich weniger 
umfassende und qualitativ weniger tief- 
gehende kognitive und affektive Umstruktu- 
rierungen, alsbei den Schulern, die am lan- 
geren Unterricht teilnahmen. 

• Der LehrereinfluG ist zwar relativ gering, hat 
aber eine bedeutende Funktion bei der For- 
derung affektiver Engagements der Schuler. 

• Konsistente Einschatzung des Psychologie- 
curriculumsdurch Schuler ausverschiedenen 
Experimentalgruppen und Veranderungen in 
der Beurteilung im Verlauf des Curricul urns; 

• Bestatigung curricularer Intentionen durch 
die Analyse von Anschauungsmaterial aus 
den Unterrichtsstunden der Experimental- 
gruppen 

• Schuler der Experimentalgruppen sind nach 
der Teilnahme am Psychologieunterricht 
durch das neue Psychologiecurriculum den 
Wissenschaftler «ahnlicher»alsihrer eigen en 
Bezugsgruppe, diewahrend desgleichen Zeit- 
raumes an einem gewohnlichen Psycholo- 
gieunterricht teilnahmen. Allerdings ist die 
Angleichung nicht vollstandig, es gibt viel- 
mehreinigewichtigeund interessanteUnter- 
schiede. 

8. AbschlieEende Kritik 

Frau Seiffge-Krenkehat das von ihr entwickelte 
Psychologiecurriculum selbst evaluiert und da- 
bei groftten Wert auf externeValidi tat und eine 
laufende Verbesserung des Projektentwurfs an- 
hand neuer Ergebnisse (formative Evaluation) 
gelegt. Unterdiesen Zielsetzungen hattedann 
zwangslaufig die interne Validitat zu leiden. 

Eine kurze kritische Stellungnahme zu einer 
so umfangreichen Studie vorzunehmen muG, 
sowohl fur den Kritiker als auch fur den Eva- 
luator, ein unbefriedigendes Unterfangen blei- 
ben, das in keinem Fall der Evaluationsstudie 
gerecht werden kann. 
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3.3.3 Evaluation im forensischen 
Bereich 

Alsdrittes Beispiel wird eine Arbeit vorgestellt, 
die sich mit einer typischen Fragestellung aus 
dem forensischen Bereich beschaftigt. 

Der Erfolg Oder der MiRerfolg der Sozial- 
therapeutischen Anstalten im Bezug auf die 
Resozialisierungseffekte wird in der Bundesre- 
publik wird seit den siebziger Jahren teilweise 
sehr kontrovers diskutiert. 

Zu der Bedeutung des Resozialisierungs- 
oder Behandlungsvollzuges hat sich 1983 
auch das Bundesverfassungsgericht geauftert 
(BeschluR vom 28.06.1983). Es vertritt die 
Meinung, daft das Ziel des Strafvollzuges 
vornehmlich, also nicht ausschlieftlich, dar- 
in besteht, den Gefangenen zukunftig auf 
ein Leben in sozialer Verantwortung und 
ohne Straftaten vorzubereiten. (s. du Menil, 
1994) 

Seit den ersten Reformbemuh ungen in den 
sechziger Jahren biszum heutigen Zeitpunkt, 
ist diegroReZahl an Schwierigkeiten kaum zu 
ubersehen. Gerade die in letzter Zeit wieder 
vermehrt gefuhrten Diskussionen uber die 
moglichen Behandlungs- und Praventions- 
maftnahmen in dem Bereich der Sexual - 
straftater zeigen das ganzeAusmaB der Proble- 
matik. 

Grundlage dieser Diskussionen, diesowohl 
von der Bevolkerung, der Fach often tlichkeit 
alsauch von der Politik gefuhrt werden, sind 
einerseits die reformpolitischen Richtungen 
der beteiligten Parteien, andererseitsdie in die- 
sem Bereich durch gefuhrten Evaluations- 
studien (vgl. Losel, 1994, Dunkel, 1980). 



Fallbeispiel 3: Resozialisierungseffekt der 
Sozialtherapie 

Anhand der experimentellen Langsschnittstu- 
diezum Resozialisierungseffekt der Sozialthera- 
pie von R. Ortmann, 1994 sollen hier die Be- 
sonderheiten der Evaluation im forensischen 
Bereich dargestellt werden. 

1. Problemstellung 

In den letzten ca. 25 Jahren wurden dieErfolge 
der sozialtherapeutischen Behandlung kontro- 



vers diskutiert. Die verschiedenen Positionen 
beinhalteten Aussagen von «esgibt sehr groGe 
Erfolge» bis «es gibt kaum Erfolge». In dieser 
Evaluationsstudieuntersucht Ortmann den Er- 
folg und die GroGe des Erfolges der sozial- 
therapeutischen Behandlung. 

2. Evaluationsobjekt 

Die Studie umfaRte 250 Gefangene in Haftan- 
stalten des Landes NRW. 

3. Evaluationsort 

Bei Ortmanns Untersuchung handelt es sich 
um eine Feldstudie. 

Die Gefangenen waren in den sozialtherapeu- 
tischen Flaftanstalten Duren und Gelsenkir- 
chen, sowie in mehr als zehn Regelvollzugs- 
anstalten in NRW inhaftiert. 

4. Zidsetzung 

Ziel der Studie war es, festzustellen ob, und 
wenn, wie gro(5 der (positive) Effekt des Sozial- 
therapie auf das Legal verhalten der Probanden 
nach deren Entlassung ist. Als Zwischen- 
kriterium des Erfolges wurde auf positiven Aus- 
wirkungen der Sozialtherapie schon wahrend 
der Inhaftierung geachtet, Siebetreffen diePer- 
sonlichkeit des Taters, seine soziale Situation 
etc. 

5. Design und Untersuchungsmethodik 

Fachdienste (Psychologen, Padagogen, Sozial- 
arbeiter, Theologen) der jeweiligen Justiz- 
vollzugsanstalten und die Fachdiensten der 
sozialtheapeutischen Anstalten begutachteten 
die Gefangenen, die sich um Verlegung in eine 
sozialtherapeutische Anstalt beworben hatten 
Die sozialtherapeutischen Flaftanstalten stell- 
ten Paarevon, als«geeignet begutachteten » In- 
sassen zusammen, ausdieser Population wurde 
nun nach dem Zufallsprinzip die Experimen- 
tal- und Kontrollgruppegezogen. 

Zur Experimental- und Kontrollgruppe gehor- 
ten jeweilsll4 Probanden. 

Fo I gen d e Erh ebu n gsi n stru men te wu rden ei n ge- 
setzt: 
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• Freiburger Personlichkeitsinventar 

• GieGen-Test 

• Interview 2 J ah re nach Haftentlassung 

• Aktenlagebezuglich dereventuellen Wieder- 
inhaftierung 

Die Phase der Datensammlung erstreckte sich 
uber 8 Jahre, 1990 wurden die letzten Inter- 
views gefuhrt. 

Das Untersuchungsdesign enthalt 4 MeBzeit- 
punkte: 

1. zu Beginn der Sozialtherapie-Experimental- 
gruppe 

2. ca. in der Mitte der sozialtherapeutischen 
Behandlung-Experimentalgruppe 

3. kurz vor der Entlassung aus der Haft 

4. zwei Jahre nach der Haftentlassung 

Der Untersuchungsplan wird in Diagramm ill/ 10 
dargestellt. 

6. Evaluationsmoddl 

DieUntersuchung von Ortmann entspricht den 
wesentlichen Kennzeichen einersummativen Eva- 
luation, wiesieim Diagramm ill/ 6 dargestellt sind. 

7. WichtigeErgebnisse 

Die Ergebnisse der zu alien MeBzeitpunkten 
durchgefuhrten Personlichkeitstests, (das Frei- 
burger-Personlichkeitsinventar bei alien 4 MeB- 



zeitpunkten, der GieSen-Test zum 3. MeBzei t- 
punkt) zeigen im Langsschnitt einen breiten, 
gruppenunabhangigen Trend zur Verbesserung 
der Kriterienwerte mit der Haftzeit. 

Hauptergebnisder Untersuchung, so der Au- 
tor, i st der geringe Effekt der Sozialherapie. 
Der Vergleich zwischen Experimental- und 
Kontrollgruppe, dieser stellt den «strengsten 
Mal3stab» bezuglich des sozialtherapeutischen 
Erfolges dar, lalSt «... weder fur die Wiederin- 
haftierung noch fur die selbstberichtete Delin- 
quenz auch nur einen Hauch einer Tendenz 
zugunsten der Sozialtherapie erkennen.» (Ort- 
mann, 1994). Die Experimentalgruppe setzte 
sich aus den «Vollteilnehmern der Sozialthera- 
pie» und den Gefangenen zusammen, die die 
Sozialtherapie vorzeitig abbrachen und in den 
Regel vollzug ruckverlegt wurden. 

Werden die «Vollteilnehmer der Sozialthera- 
pie», diese Gruppe bezeichnet Gefangene, die 
die komplette Sozialtherapie absolviert haben, 
mit der Kontrollgruppe verglichen zeigt sich 
kein deutlicher Effekt der Sozialtherapie in Be- 
zug auf das Hauptkriterium «Legalverhalten 
nach Haftentlassung*. 

8. Abschl ieGende Kritik 

Vorteile der Untersuchung 

• Die Untersuchung besitzt ein relativ starkes, 

nach Kausalursachen forschendes Design 



Diagramm 111/10 

Untersuchungsplan der experimentellen Langsschnittstudie von Ortmann, 1984 


Entscheidung nach Haftphase, 

dem Zufallsprinzip Betreuung, Behandlung 

aus der Bewerber- 

gruppe 


Nach Haftentlassung 


Sozialtherapie 1. MeGzeitpunkt 2. M eGzeitpunkt 3. MeGzeitpunkt 

(Experimental- 
gruppe) N =103 N =100 N =90 

N =114 


4. MeGzeitpunkt 
N =71 


1. MelSzeitpunkt 2. M el$zeitpunkt 3. MeKzeitpunkt 

Regelvollzug 

(Kontrollgruppe) N =111 N =104 N =89 

N =114 


4. MeGzeitpunkt 
N =80 
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• Die Experimental- und Kontrollgruppen wur- 
den streng nach dem Zufallsprinzip ausge- 
wahlt 

• Die Effekte wurden mit verschiedenen Meft- 
instrumenten erhoben 

• Es gab, uber einen Untersuchungszeitraum 
von acht Jahren gesehen, einen sehr gerin- 
gen Ausfall von Probanden (16%) 

• Die4 MeRzeitpunkteerlauben Aussagen uber 
die Stabi I itat von Effekten 



Nachteile der Untersuchung 

• Das Zufallsprinzip zur Bildung der Stichpro- 
ben kann ethische Fragen aufwerfen 

• Daszu dem 4. Meftzeitpunkt verwendete In- 
strument - Nachbefragung zwei Jahre nach 
Haftentlassung - wird nicht naher erlautert 

• Die genannten Zwischenkriterien, (Person- 
lichkeit des Taters, seine soziale Situation), 
sind nicht naher definiert 



Fazit 

Die von Ortmann 1994 verbffentlichte Langs- 
schnittstudie zum Resozialisierungseffekt der 
Sozialtherapie zeigt auf eindrucksvolle Weise, 
wie Evaluation auch unter sicherlich groRen 
organisatorischen Problemen moglich ist. 

Gekennzeichnet ist die Studie durch ihre in- 
tensive Bemuhung, eine systematised e, em- 
pirisch gestutzte Optimierung der Maftnahme 
«Sozialtherapie» zu erreichen. 

Wie in den vorhergehenden Abschnitte dar- 
gestellt, treten vor allem besondere Probleme 
hinsichtlich der Zielexplikation und der 
Nutzenbestimmung auf, also Fragestellungen 
im Projektverlauf, dieden eigentlichen Kern der 
Evaluation bilden. Diese Problembereiche wer- 
den daher ausfuhrlich im nachfolgenden vier- 
ten Kapitel besprochen. 
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Ubersicht Kapitel 3: 
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3.1 

Einteilungsgesichtspunkte fur Evaluationsstudien 




Idealtypische Klassifikationsraster fur Evaluationsstudien sind nicht moglich! 


Gruppen von Evaluationsobjekten 


Problemebei der Bestimmung von 


Orteder Evaluation 


• Person en, Produkte 


Evaluationszielen 


• Evaluation im Feld (Unterneh- 


• Umwelt- und Umgebungs- 


• Zielexplikation 


men, Klinik etc.) 


faktoren 


• Fleterogenitat derZielstrukturen 


• Evaluation im Labor 


• Techniken und Methoden 


• Veranderbarkeit der Ziele 


• Grower Anteil an Evaluationen 


• Zielvorgaben, Programme, 


wahrend der Evaluation 


im Uberschneidungsgebiet 


Projekte 

• Systeme und Strukturen 


MoglicheZielstrukturen der 


Feld/Labor 


• Forschungsergebnisseu. 


Auftraggeber: 




Evaluationsobjekte 


• Bewertungohnedetailliertes 






Ziel 






• Verantwortungsdelegation 

• Durchsetzungs- und Ent- 
scheidungshilfe 

• Optimierungsgrundlagen 


Evaluationsnutzung 


Evaluationsm odell 


Evaluationsberiche 


Bei der Gestaltung des Evaluations- 


• Entscheidungssituation 


• Bildungssektor, Wirtschaft 


projektesmitberucksichtigen = 


• Entscheidungsbedingungen 


• Agrar- und Verkehrspolitik 


praktischeUmsetzung der Ergebnisse 


• Art der verwendeten Instru- 


• Familien- und Sozialpol iti k 


Beispiele: 


mente und Verfahren 


• Justizvollzug, Gesundheits- 


• «geschlosseneSelbstevaluation» 


• Ausmal5 der Prazision bei der 


wesen 


• Ergebnisse dienen «Macht- 


Sammlung und Analyse von 


• Arbeits- und Beschaftigungs- 


entscheidung» 


Informationen 


politik 


• Ergebnisse fur die«Fach»- 


• methodische Fahigkeiten der 


• Umweltpolitik 


Offentlichkeit 


Evaluatoren und ihrer Adressa- 


• Stadtebau- und Wohnungs- 


• Ergebnisse werden fur eine 


ten 


politik 


pol itische Entscheidung ver- 




• Militarischer Bereich 


wendet und verdffentlicht usw. 


3.2 

Evaluation als i nterd iszi pi i na res Feld 

Evaluation als integrativer, Politikfelder uberschreitender Faktor 




Evaluationsforschung = 


Problem 


Ziel 


interdisziplinaresFeld 


MangelndeZusammenarbeit der 
verschiedenen Fachdisziplinen z.B. 
W i rtsch aftswi ssen sch aften , 
Psychologie, Soziologie 


Integrative Zusammenarbeit 


Entwicklung der Evaluationsforschung 




USA 


BRD 




Anfangein sozialpolitischen Reformprogrammen der Anfange Ende der sechziger, Anfang der siebziger 

sechzigerjahre. Fleutefester Bestandteil bei der Jahreim Rahmen politischer Reformprogramme, 


Programmplanung, -realisierung, 


-kontrolleund vorallem im Bildungsbereich. Heute expan dierende 


-finanzierung, zunehmendeProfessionalisierung der Wirtschaftsrichtung, abernoch fehlt eineeehte 


Evaluatoren 


Professionalisierung 


3.3 

Evaluation in der Praxis 
In derWirtschaftz.B. als 


AlsEntwicklungsinstrument im 


Optimierungs- und Kontrollmittel im 


Managementmittel 


Schul- und Bildungswesen 


Bereich desjustiz- und Sozialwesen 
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4. Zielexplikation und 
Bewertungskriterien 



Evaluation ist nie Sel bstzweck. Die Bewertung 
von MaRnahmen, Organisationsformen Oder 
Einzel person en macht nur dann Sinn, wenn 
auf der Grundlage dieser Ergebnisse praktische 
Konsequenzen eingeleitet werden, etwa die 
Auswahl der «besseren» Alternative Oder die 
Durchfuhrung von «Verbesserungen»durch In- 
terventionen (Organisationsanderungen, Wei- 
terbi I d u n g etc. ) . D i eses «besser/sch I ech ter» setzt 
ein (subjektivbewertetes) Ziel voraus, dasdurch 
dieeinzelnen Alternativen in mehr Oder weni- 
ger vollkommener Weise erreicht wird. Oder 
anders formuliert: Die Evaluation dient dazu, 
die Grundlage fur ein nutzenmaximierendes 
Verhalten zu optimieren. Der Begriff «Nutzen» 
ist naturlich in voller Breitezu verstehen, und 
in keiner Weise auf finanzielle Aspekte be- 
schrankt. 

Fur die effiziente Gestaltung eines Projektes ist 
esdaher unverzichtbar, zu wissen 

• in welchem Verwertungszusammenhang die 
Ergebnisse zu sehen sind (Zielexplikation, 
4.1) 

• welcheKriterien dafur herangezogen werden 
sollen (BewertungsprozeR, 4.2) 

• wie der Nutzen der aufgetretenen Auspra- 
gungsgrade der Kriterien einzuschatzen ist 
und wie auf dieser Basis eine globale Alter- 
nativen bewertung erfolgen kann (Bewer- 
tungs- und Entscheidungshilfemethoden, 
4.3) 

Im Diagramm IV/ 1 ist die Struktur dieses Problem- 
bereiches als Leitfaden fur die folgenden Aus- 
fuhrungen am Beispiel eines Problems der 
Alternativenauswahl (summativ) durch ein 



Evaluationsprojekt skizziert. Prinzipiell dieglei- 
che Struktur laRt sich auch auf die anderen ty- 
pischen Fragestellungen (Vergleich einer Alter- 
nativemiteinem normativen Standard bzw. das 
Aufzeigen von subjektiven Defiziten gegenuber 
Erwartungen; vgl. Abschnitt 2.1.3) anwenden. 
Leider sind die Fragen der Zielsetzung in vielen 
Eval uati on sproj ekten d i e groRte Sch wach stel I e, 
deren insuffiziente Ausfullung die Praxisrele- 
vanz (und damit in den meisten Fallen auch 
die Rechtfertigung) des Projektes beei ntrachtigt. 
Es ist gerade bei sozi al wissen sch aftlich interes- 
santen Themen nicht einfach, uberhaupt zu 
Beginn des Projektes einen Konsens uber Ziel- 
setzung und Nutzenaspekte herbeizufuhren; 
noch schwieriger ist es, solche Vereinbarungen 
auch als Grundlage fur die nachtragliche Be- 
wertung von Projekten beizubehalten, wenn 
«unerwunschte» Ergebnisse auftraten Oder die 
inzwischen stark geanderten Rahmenbedin- 
gungen eineandere Projektausrichtung hatten 
sinnvoll erscheinen lassen. 



4.1 Zielexplikation 

DieFreiraume des Evaluators schwanken in Ab- 
hangigkeit vom Auftraggeber und dem konkre- 
ten Arbeitsfeld sehr stark. Manchmal sind die 
Vorgaben so strikt, daR sich eine Uberlegung 
zur Zielsetzung erubrigt, wenn man personlich 
bereit ist, auch ohneKenntnisderspateren Ver- 
wendung ein solches Projekt durchzufuhren 
(etwa: «Stellen Si e test, wieviele Person en die 
von uns zugeschi ekten Informationsbroschu- 
ren gelesen haben»). Der Evaluator beschrankt 
sich dann auf die Rolle eines Datensammlers, 
derdiegewunschteTeil-Sachinformation liefert 
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Diagramm IV/ 1 

Phasen eines Evaluationsprojektes am Beispiel eines Problems der Alternativenaus- 
wahl (summativ) 


Arbeitsschritte 


Hilfen 


1. Nutzenbestimmung fur wen? 
(Identifizierung von Personen Oder 
Organisationen, deren Nutzen maximiert 
werden soil) 

2. Nutzenbestimmung von was? 
(Identifizierung des Problems, d.h. der 
Entscheidung fur die der berechnete 
Nutzen relevant ist) 


Gesprachs- und Kommunikationstechniken 


3. Identifizierung der zu evaluierenden 
Alternative^) 




4. Zusammentragen der relevanten 
Bewertu n gskri teri en 


Zi el ex p 1 i kat i o n sverf ah ren 


5. Zielanalyse 

(Wiesoll die optimale Alternative auf der/ 
den Bewertungskriterien aussehen?) 




6. Nutzen messung 

(Festlegung des Nutzensfur jedes 

Bewertu n gskri teri um und jede Alternative) 


Verfahren der Nutzenmessung 


7. Nutzenverrechnung 
(Zusammenfassung der Nutzen werte pro 
Alternative) 

8. Entscheidung an Hand der in der 
Zielanalysefestgelegten Kriterien 


Bewertu ngs- und Entscheidungshilfe- 
methoden 


- und sonst nichts Die Fragen der Zielfindung 
werden dadurch naturlich nicht aufgehoben, 
sondern nur vom Evaluator auf den Auftragge- 


Verwertbarkeit der Ergebnisse aufgrund seiner 
Projektdurchfuhrung ubernehmen mu(5 
(«Schauen Sie sich einmal unsere Weiterbil- 



ber verlagert. 

Haufiger findet man bei sozialwissenschaft- 
lich gestutzter Evaluation das andere Extrem: 
Der potentielle Auftraggeber hat eine so vage 
Vorstellung von seinen Wunschen, daB der 
Evaluator die faktische Verantwortung fur die 



dungsangebote an, irgend etwas lauft da nicht 
so ganz richtig «, «Stellen Siefest, welche Psy- 
chotherapiefur unsere speziellen Patienten am 
besten ist»). Hier ist eine besonders intensive 
Aufkl arun g des Auftraggebers n oti g, d i e manch - 
mal bei Vorhaben der Offentlichen Hand Oder 
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grolSerer Konzerne zu einem Projekt fur sich 
werden kann. 

Der Regel fal I ist, daft von Seiten desAuftrag- 
geberszu Beginn desProjekteseinegewisseVor- 
gabeder Zielsetzung vorliegt, dalS sieaber nicht 
so rational und konkretisiert ist, dalS nicht 
durch die Hilfe des Evaluators noch wesentli- 
che Verbesserungen moglich waren. Einige 
dafur bewahrte Vorgehensweisen werden in 
den folgenden Abschnitten kurz skizziert. 
Behandelt werden Aspekte der Zielgruppenbe- 
stimmung, der Konkretisierung der «Evalua- 
t i on sobj ekte» so wi e d i e M ogl i ch kei ten an ti zi pa- 
torischer Uberlegungen der Verwendung von 
Proj ektergebn i sen . 



Konflikte 

Wesentlich erschwert kann dieArbeit zu diesen 
Punkten durch dasVorliegen von Konflikten in- 
nerhalb des Auftraggebers werden. Halbwegs 
bewaltigbar sind diedadurch verursachten Pro- 
blemebei institutionalisierten Konflikten, wen n 
also die Kontrahenten aufgrund ihrer Funktion 
(verschiedene politische Parteien, partiell kon- 
kurrierende Abteilungen eines Unternehmens, 
verschiedeneorganisiertelnteressengruppen wie 
zum Beispiel im Gesundheitswesen) klarerkenn- 
bar sind und es aufgrund dieser Organisations- 
form auch zulassig ist, often die unterschiedli- 
chen Schwerpunktsetzungen zu betonen. In 
solchen Fallen empfiehlt sich fur den Evaluator 
absoluteOffenlegung seiner Planungen, Integra- 
tion der unterschied lichen Meinungen durch 
Aufnahme moglichst vieler gewunschter Aspek- 
te (zu dem damit verbundenen Vorgehen vgl. 
dieentsprechenden Ausfuhrungen im Abschnitt 
4.2), und, falls ein solcher Konsens nicht mog- 
lich ist, dasBestehen auf formal isierten Entschei- 
dungen gemalS den in der jeweiligen Situation 
zwischen den Kontrahenten vereinbarten (de- 
mokratischen) Spiel regel n. 

Nahezu unlosbar wird die Situation bei ver- 
deckten Konflikten, wiesievorallem durch per- 
sonliche Antipathien Oder Konkurrenz- 
situationen innerhalb der auftraggebenden 
Institutionen entstehen konnen. Selbst wenn 
der Evaluator rechtzeitig auf solche Probleme 
aufmerksam wird (was haufig nicht der Fall ist), 
hat er kaum die Moglichkeit, Konfliktlosungs- 
techniken einzusetzen, dadasZugeben solcher 



Probleme gegen dasSelbstbild vieler Auftragge- 
ber verstoftt. Wenn das Projekt aufgrund sol- 
cher Schwierigkeiten suboptimal wird, ist dies 
nur bedingt dem Evaluator anzulasten. Die 
sinnvolle Verwendung von Ruckmeldungen 
durch empirische Evaluationen setzt eine ge- 
wisse Organisationskultur voraus (5.1.3), die 
nicht kurzfristig und schon gar nicht bezogen 
auf ein Einzelprojekt allein erreicht werden 
kann. 



4.1.1 Zielgruppenbestimmung 

Esuberrascht immer wieder, wieeingeschrankt 
viele Auftraggeber zunachst das Evaluations- 
projekt sehen. Dies betrifft sowohl die zu eva- 
luierenden Alternativen (oft kann man hier 
Vorschlage hinzufugen, etwa bei vergleichend 
ins Auge gefaRten TherapiemaRnahmen Oder 
Fordermoglichkeiten von M itarbeitern), als 
auch die «betroffenen» Person en. So werden 
zum Beispiel in Kliniken von unterschiedlichen 
Therapien nicht nur die Patienten, sondern 
auch deren Angehorige, die Pfleger und Kran- 
kensch western, die Therapeuten und manch- 
mal sogar, wenn etwa die allgemeine Zeit- 
planung zu verandern ist, auch das gesamte 
Flilfspersonal (zum Beispiel Kuche) tangiert, 
ganz zu schweigen von den Kostentragern der 
MalSnahme. Der Evaluator kann durch eigene 
Vorschlage den Gesichtskreis erweitern, und 
dieses ist auch ein vor allem in Einzelgespra- 
chen oft gewahltes Vorgehen. Es besteht aber 
dieGefahr, daR solche «von aul5en» kommen- 
den Vorschlage vom Auftraggeber nicht ohne 
weiteres akzeptiert werden, daher ist es besser, 
d i e G esprach spartn er sel bst auf erwei terte I d een 
kommen zu lasen. H i erbei kann man sich vor 
allem in Gruppensitzungen einer Fullevon im 
Bereich der betrieblichen Weiterbildung ein- 
gefuhrten «Kreativitatstechniken» bedienen 
(vgl. dazu etwa Geschka, 1988; Preiser, 1976), 
fur die Zielgruppenbestimmung besonders 
empfehlenswert sind hierarchisch gesteuerte 
Assoziationsketten . 



Beispiel fur Assoziationsketten 

Dieses Vorgehen laftt sich am leichtesten an 
einem Beispiel i 1 1 ustrieren . Ausgangspunkt sei 
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der Wunsch eines Schulbuchverlages, zu pru- 
fen, ob durch «advanced organ izer» (vor jedem 
Kap i tel bzw. Absch n i tt wi rd ei n e U bersi ch t u ber 
diefolgenden Ausfuhrungen geboten, um dem 
Leser den schnellen Aufbau einer entsprechen- 
den kognitiven Struktur zu ermoglichen; vgl. 
etwa Bruner, 1963) die Verstandlichkeit von 
Texten (und damit dieVerbreitung des Buches) 
verbessert werden kann. Man kann die so for- 
mulierteFragestellungdirektaufgreifen und das 
gesamte Projekt darauf beschranken. Man er- 
halt dann ein laborexperimentelles Design, in 
dem randomisierteSchulergruppen verschiede- 
nen Material variationen ausgesetzt und hin- 
sichtlich ihres Textverstandnisses gepruft wer- 
den. Einfach, uberschaubar und kostengunstig 
durchfuhrbar - aber nicht unbedingt ein fur 
die praktische Entscheidung desVerlages wirk- 
lich relevantes Evaluation sprojekt. 

Mochte man mit Hilfe hierarchischer Asso- 
ziationsketten die Zielsetzung naher abklaren, 
so kann man zunachst uberlegen, welche Per- 
sonengruppen mit dem Buch unmittelbar Kon- 
takt haben werden, also etwa 

• Autor/Lehrer/Schuler 

Kurzes Nachdenken zeigt, daft diese Gruppie- 
rung nicht vollstandig ist; man muG zumindest 
erweitern auf 

• Autor/Verlag/Lehrer/Schuler/Eltern 

Da Schulbucher auch zugelassen und gekauft 
werden mussen, sollteman erweitern auf 

• Autor/Verlag/Schulbehorden/Handler/Leh- 
rer/ Schuler/ El tern 

Damit hat man eine Zusammenstellung von 
Perso nen-0 berm en gen, die eine ganz gute 
Grundlage fur eine feinere Ausdifferenzierung 
bieten. Man greift jede dieser Begriffe heraus 
und uberlegt, welche Einteilung (Ausdifferen- 
zierung) irgendwie relevant fur daszu evaluie- 
rende Problem sein konnte. Fur die Population 
«Leh rer» ware d i es etwa 

• Alter/ berufli cher Status/ Fach/U nterrichts- 
methodik/ Schulform/u.v.a. 

Oder fur die«Schuler» 



• Klassenstufe/ Schulform/ Intelligenz/ Vor- 
ken n tn i sse/ Arbei tsmoti vati on / G esch I ech t/ 
FI au sauf gaben betreu u n g/ u . s. w. 

Es kann sein, daft man dieeinzelnen Einteilun- 
gen unverbunden nebeneinanderstehen lassen 
kann. In manchen Fallen ist es aber angezeigt, 
fur eine genauere Zielgruppenbestimmung 
Kombinationen zu bilden, also etwa «Schuler 
der Klasse 6 am Gymnasium ohne Unter- 
stutzung bei den FI au sauf gaben ». Ob solche 
«Ketten» notwendig sind, hangt davon ab, in 
wieweit Wechselwirkungen zwischen den ein- 
zelnen Definitionsteilen hinsichtlich der Frage- 
stellung plausibel sind. 

Eine weitere Verfeinerung entsteht durch die 
Kombination der Teilgruppen verschiedener 
Obermengen, soweit dies sachlich sinnvoll ist. 
Ein Beispiel: Schuler der Klasse 6 an einem 
Gymnasium ohne FI ausaufgaben betreu ung, 
die bei einem alteren Lehrer mit besonderer 
Vorliebe fur Frontalunterricht das Fach Eng- 
lisch lernen, deren Eltern keine Kenntnisse in 
Englisch haben und wenig an dem Schulerfolg 
ihrer Kinder interessiert sind. 

Dieeinfache Methodik des Bildenseventuell 
relevanter Subgruppen durch Kombination aus 
verschiedenen Obermengen ergibteinenahezu 
unubersehbare Vielfalt von potentiellen Ziel- 
gruppen, so daR die eigentliche Aufgabe der 
Zielgruppenbestimmung dann nicht mehr in 
dem Finden von moglichen Ideen, sondern in 
der Reduktion auf die wirklich wesentlich er- 
scheinenden Teilgruppen besteht. Im Beispiel 
der«advanced organizer» wird man zumindest 
uberlegen, das ursprungliche Einfach-Design 
um Aspekte des Entwicklungsgrades der Schu- 
ler, des Faches, der Unterrichtsmethodik des 
Lehrersund evtl. des AusmaRes an Unterstut- 
zung bei schulischen Aufgaben zu Flause zu 
erweitern, wobei man naturlich nicht zwangs- 
laufig alles neu empirisch untersuchen muR, 
sondern teilweiseauf vorhandene Forschungs- 
ergebnissezuruckgreifen kann. AuGerdem wird 
man darauf hingewiesen, daR nicht nur der 
Lernerfolg, sondern auch Aspekte wie Akzep- 
tanz durch die Lehrer (ohne die sich ein Schul- 
buch wohl nicht durch setzen kann), der durch 
solche didaktische FHilfen veranderte Umfang 
und naturlich auch der Preismit berucksichtigt 
werden mussen (vgl. dazu die Kriterienexpli- 
kationen in Abschnitt 4.2). 
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4.1.2 Konkretisierung des 
Evaluationsobjektes 



Diefur Psychologen und andereempirisch ori- 
entierte Sozialwissenschaftler selbstverstandli- 
cheTrennung zwischen theoretischem Begriff 
(Konstrukt) und operationalisierten, empirisch 
erfaBbaren Indikator ist den meisten Auftrag- 
gebern von Evaluationsprojekten nicht gelau- 
fig. Wenn diese Frage uberhaupt gesehen wird, 
scheint man haufig zu meinen, daB ihre Lo- 
sung ein Teil der Aufgabe des Evaluators sei. 
Dieser kann aber die erforderlichen Konkreti- 
sierungen nur auf der Basis einer moglichst gu- 
ten Kenntnis der Zielsetzung vorschlagen. Es 
ist in Anbetracht der Wichtigkeit dieses Punk- 
tes fur die spatere Verwendung der Ergebnisse 
dringend zu empfehlen, die so erstellten Vor- 
schlage vom Auftraggeber prufen und mog- 
lichst formell festlegen zu lassen. 

Schon an einem so einfachen Problem wiedie 
«advanced organizes wird die Beeinflussung 
der Ergebnisse durch die konkrete Festlegung 
dieses Begriffes in der Untersuchung deutlich. 
Die Realisierungsmoglichkeiten fur «advanced 
organizer» reichen schon rein optisch von ei- 
nem kleinen Kasten im Kleindruck mit aus- 
schlieRlicher Angabe der kommenden Zwi- 
schen uberschriften bis hin zu mehrseitigen 
Darstellungen; inhaltlich von einer bloften Auf- 
zahlung derfolgenden Hauptpunktebishin zu 
einer umfassenden, evtl. noch Sekundaraspekte 
mit beinhaltenden Begrundung gerade dieser 
Auswahl und Reihenfolge. Wahrscheinlich wir- 
ken sich diese Gestaltungs-«Details» starker auf 
relevante Bewertungskriterien, wie Verstand- 
lichkeit, Akzeptanz und Kosten aus als die bio- 
Re Unterscheidung zwischen dem Vorhanden- 
sein Oder Nichtvorhandenseins irgendeines 
ad van ced organ i zers. 

Je komplexer die zu evaluierende MaRnahme 
ist, um so vielfaltiger wird der Gestaltungs- 
spielraum. Man denkeetwaan Begriffewie«Ge- 
samtsch u I e» (hal btags Oder gan ztags? f rei wi 1 1 i ge 
Oder gegen ihren Wunsch dorthin versetzte 
Lehrer? normale Schuler/ El tern Oder an dieser 
Schulform besonders interessierte? additiv, in- 
tegriert Oder kooperativ? Anzahl der Parallel- 



zuge? u.s.w.), «Psychotherapie bei Suchtkran- 
ken», «Offener Strafvollzug» Oder «Stationare 
Altenversorgung». 

Da vom Auftraggeber im allgemeinen nicht die 
kreative Gestaltung aller moglichen MaBnah- 
men erwartet werden kann, sondern eher die 
Auswahl aus mehreren Vorschlagen des 
Evaluators, empfiehlt es sich, zunachst eine 
Vielzahl moglicherGestaltungsdimensionen zu 
erarbeiten. AlsTechniken dafur bieten sich, je 
nach Problemstellung, an: 

• SorgfaltigeAnalysederbereitsempirisch vor- 
handenen unterschied lichen Auspragungen 
derzu evaluierenden MaGnahmeauf den re- 
levanten Dimensionen (Literaturstudium, 
Hospitationen, Experteninterviews) 

• Gruppendiskussionen (mit verschiedenen 
Betroffenen, Praponenten bestimmter Ent- 
scheidungsideen, Auftraggeber und eventu- 
elle Experten) 

• «Brain -Storm ing»-Techni ken, insbesondere 
mit Mitarbeitern des Auftraggebers und des 
Projektteams (siehedazu Diagramm iv/2) und 
ahnliche kreativitatsfordernde Gruppenver- 
fahren 



Ausfuhrliche Darstellungen finden sich bei 
Osborn (1963), Ulmann (1968), Preiser (1976), 
Sturm (1978) und Geschka (1988). 

Die verschiedenen Auspragungsgradeder so er- 
haltenen Gestaltungsdimensionen konnen 
dann systematised kombiniert werden, zum 
Beispiel in Anlehnung an die Faccettentheorie 
(Guttman, 1957). Im allgemeinen werden nur 
wenige Kombinationen aus Sachgrunden ent- 
fallen (etwa bei den advanced organ izern die 
Kombination von «Maximal 5 Zeilen Platz» 
und «Sorgfaltige inhaltliche Begrundung der 
folgenden Abschnitte»), so da8 selbst bei nur 
wenigen dem Auftraggeber und dem Evaluator 
relevant erscheinenden Gestaltungsdimensio- 
nen eine viel zu groGe Vielfalt potentieller 
Konkretisierungen vorliegt. Bei der fur ein 
durchfuhrbaresProjekt nicht vermeidbaren Be- 
grenzung auf wenige Varianten sollten diespa- 
terepraktische Verwendung der Ergebnisse und 
die in Zukunft zu erwartenden Rahmenbedin- 
gungen beachtet werden (vgl. 4.3.3). 
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Diagramm IV/ 2 

Kurzdarstellung der «Brain-Storming>HMethode (nach Osborn, 1963) 



Grundlagen 

Beim Brainstorming handelt essich um eine 
Technik zur kreativen Problem I osung, die 
nach dem Prinzip der freien Assoziation 
arbeitet. Sie zielt darauf ab, die negativen Er- 
scheinungen von Konferenzen und Diskus- 
sionsrunden wiez.B. destruktive Kritik, Riva- 
litat unter den Teilnehmern, Verzettelung in 
unwichtigeEinzelheiten zu uberwinden. Beim 
klassischen Brainstorming sind grundsatzlich 
die Phasen «ldeenfindung» und «ldeen- 
bewertung»voneinanderzu unterscheiden. In 
der Phase der Ideefindung, auch «green-light- 
stage» genannt, werden die Teilnehmer vom 
Moderator aufgefordert, zu einem spezifi- 
schen Problem moglichst viele Ideen zu pro- 
duzieren. Die Betonung liegt hier also zu- 
nachst auf der Quantitat der Einfalle, nicht 
auf der Qualitat. In der anschlieftenden Phase 
der Ideenbewertung («red-light-stage») wer- 
den dieeinzelnen, zuvor protokollierten Ideen 
an Hand festgelegter Kriterien bewertet. 
Ulmann (1966) hatzu diesem Zweck einespe- 
zielle Technik entwickelt, die die Auswahl 
sinnvoller Ideen erleichtern soil. Dazu bewer- 
ten dieTeilnehmerder Brain storm ing-Sitzung 
alle Ideen an Hand derfolgenden Kriterien: 

• Einfachheit 

• Realisierbarkeit 

• Schwierigkeitsgrad 

Der Grad der «Einfachheit», «Realisierbarkeit» 
bzw. «Schwierigkeit» wird dazu auf einer 
Punkte-Skala eingetragen. Voraussetzung fur 
das Gelingen einer Brain storm ing-Sitzung 
sind eine gute Vorbereitung und ein erfah- 
rener Moderator, der die unbedingte Einhal- 
tung der Grundregeln des Brainstormings 
kontrolliert. 



Richtlinien fur die Durchfuhrung (vgl. Sturm, 
1979): 

1. Vorbereitung 

Brain-aorming-Sitzungen sollten nicht spon- 
tan einberufen werden, sondern sind gut vor- 
zubereiten. Komplexe Probleme sollten auf- 
gespalten und in getrennten Sitzungen 
aufgearbeitet werden . 

2. Teilnehmerzahl 

Die angemessene Teilnehmerzahl fur eine 
Brain-Storming-Sitzung liegt zwischen vierbis 
sieben Teilnehmern. 

3. Killerphrasen 

Wahrend der Phase der Ideenfindung («green- 
light-stage») ist jegliche Kritik - sowohl posi- 
tive als auch negative - an den einzelnen Vor- 
schlagen der Teilnehmer untersagt. Dazu sind 
auch nonverbale AuBerungen zu rechnen. 

4. Problemprasentation 

Bei komplexen Problemen ist es empfehlens- 
wert, den Mitgliedern der Gruppe Gelegen- 
heitzu geben, dieProblemstellung von einem 
Fachexperten erlautern zu lassen, so dalS mog- 
liche Fragen beantwortet und Unklarheiten 
beseitigt werden konnen. 

5. I deenfl uG 

DieTeilnehmer sollten dazu aufgefordert wer- 
den, alle Ideen, die aufkommen, auch unge- 
wohnliche Oder unrealistisch erscheinende, 
auszusprechen. Die Einfalle brauchen nicht 
ausfuhrlich erlautert zu werden, es reicht die 
Andeutung desGedankenganges. 

6. Zeitlimit 

Eine Brain-Storming-Sitzung sollte den zeit- 
lichen Rahmen von 30 Minuten nicht uber- 
schreiten. 
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4.1.3 Antizipatorische 
Ergebnisverwertung 



G erade groRere sozi al wi sssen schaftl i ch e Eval ua- 
tionsvorhaben leiden hinsichtlich der prakti- 
schen Verwendbarkeit besonders unter zwei 
strukturellen Gegebenheiten: 

• ProjektunabhangigeVeranderungen derRah- 
menbedingungen bzw. Zielsetzungen. Durch 
dieDauerder Projekte(meist mehrerejahre) 
haben sich dieRahmenbedingungen und da- 
mitauch die Zielsetzungen desAuftraggebers 
verandert; dieerzielten Resultate sollen aber 
geradefur die neuen Umstande aussagekraf- 
tig sein. 

• Nachtragliche, ergebnisabhangige Verschie- 
bungen. Die konkreten Ergebnisse des Pro- 
jektes konnen die Problemsicht der Beteilig- 
ten bzw. Betroffenen stark verandern, so daR 
jetzt neueAspekte wichtig werden -dieman 
aber aufgrund einer ursprunglich anderen 
Zielsetzung nicht untersucht hat. 

DieLosung dieser beiden Problemewurdeeine 
exakte Zukunftsprognose voraussetzen, die 
naturlich nicht moglich ist. Zumindest fur gro- 
Rere Evaluationsvorhaben sollte man aber ver- 
suchen, wenigstens grab die spatere Verwer- 
tungssituation zu antizipieren. Ein hierzu 
geeignetes Mittel ist die Szenario-Technik 
(vgl. Reibnitz, 1983), deren Grundgedanke im 
Diagramm iv/ 3 dargestellt ist. Es wird aufgrund 
des Aufwandes selten moglich sein, eine«idea- 
le» Szenario-Studiefur die Zelsetzung von Eva- 
luationsprojekten durchzufuhren; aber schon 
eine relativ grobe Abschatzung der erwartbaren 
Veranderungen kann helfen, bei der Definition 
der Zielgruppe Oder der Konkretisierung von 
Evaluationsdetails Fehler zu vermeiden. Das Er- 
gebnis kann durchaus der Verzicht auf das 
Evaluationsvorhaben selbstsein (alsfiktivesBei- 
spiel: Evaluierung eines Ausbildungskonzeptes 
der Bundesanstalt fur Arbeit fur die Umschulung 
von Arbeitslosen zu Technischen Zeichnern in 
Anbetracht der Verbreitung von CAD-Anlagen), 
meistens werden Projektteile dadurch akzentu- 
iert (etwa Evaluation von MaRnahmen zur Kran- 
kenversorgung in Anbetracht der erwartbaren 
Bevolkerungszahl, Altersverteilung und Beitrags- 
aufkommen furdieKrankenversicherung). 



Fur eine grobe Abschatzung der durch die 
Projektergebnisse denkbaren Situationsveran- 
derungen und darauf gestutzte zusatzliche 
Untersuchungszielekann man auch dieMetho- 
dedesPlanspieleseinsetzen (Diagramm iv/4; vgl. 
Rohn, 1980, 1986; Baehr& Eberle, 1986;). Da- 
bei muR man nicht an die (in anderen Berei- 
chen haufigen) stark formal i si erten und EDV- 
gestutzten Varianten denken, esgenugen ganz 
einfache Formen, die man vielleicht zur Ver- 
meidungvon MiRverstandnissen «koordinierte 
Rollenspiele» nennen konnteund kaum tech- 
nischen Aufwand erfordern. Den Teilnehmern 
(evtl. tatsachlich «Betroffene» Oder Projekt- 
mitarbeiter) werden fiktive Projektergebnisse 
vorgelegt und gebeten, gemalS der von ihnen 
zu vertretenen Rolle das weitere Vorgehen fur 
die Losung des mit dem Evaluationsprojektes 
bearbeiteten Problems zu diskutieren. 

Es stehen inzwischen genugend viele und 
auch im Kontext anderer Verwertungszusam- 
menhange ausreichend ausgebaute Sozial- 
techniken zur Verfugung, um die Zielsetzung 
von Evaluationsprojekten wesentlich besser zu 
fundieren, alsesderzeit (noch) ublicher Praxis 
en tspri ch t. D i e feh I ende rechtzei ti ge el abori erte 
Ausarbeitung der Zielsetzung ist zum Teil nicht 
vermeidbar, etwa aufgrund von Ressourcen- 
mangel desAuftraggebers Oder, haufiger, in An- 
betracht der Zeitperspektive (fur die auch nur 
grobe Anwendung der in diesem Abschnitt skiz- 
zierten Techniken muRteman in einem groRe- 
ren Projekt etwa 4 Monate veranschlagen). Wo 
es aber moglich ist, sollte man eine detaillier- 
tereund moglichst begrundete Zielexplikation 
anstreben. 

4.2 BewertungsprozeB 

Nach Festlegung der (Teil-)Ziele muR man sich 
daruber einigen, an welchen empirischen Be- 
obachtungen man das AusmaR der Ziel- 
erreichung beurteilen mochte. Letztlich baut 
der empirisch-wissenschaftliche Informations- 
gewinn stetsauf der Mengedererhobenen Aus- 
pragungsgrade der ausgewahlten Indikatoren 
auf, so daR dasgesamte Ergebnisentscheidend 
von der konkreten Auswahl abhangt. Ob man 
den «Lernerfolg» von Schulern in verschiede- 
nen schulischen Organisationsformen an den 
von den Lehrern vergebenen Noten, objekti- 
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Diagramm IV/ 3 

Kurzdarstellung der Szenario-Technik (vgl. v. Reibnitz, 1983) 



Definition 

«Szen ari o-Tech n i k» i st ei n e systemati sch e M e- 
thodik zur Entwicklung und Beschreibung 
moglicher zukunftiger Situationen sowiezum 
Aufzeigen des Entwicklungsverlaufes, der zu 
diesen Situationen gefuhrt hat. Die Szenario- 
Technik besteht ausacht logisch aufeinander 
aufbauenden Schritten, dieden gesamten Pro- 
zeG transparent und in alien Phasen nachvoll- 
ziehbar machen. 

Charakteristika 

• SorgfaltigeAnalysedergegenwartigen Situa- 
tion 

• Einbeziehung von quantitativen undquali- 
tativen Aspekten 

• Ermittlung von Annahmen fur die Haupt- 
einfluBfaktoren 

• VerfahrensmaRig relativ problemloseVerar- 
beitungvon Storereignissen 

• Entwicklung von alternatives in sich kon- 
sistenten (=stimmigen) Zukunftsbildern (= 
Szenarien) 

Zugrundeliegendes Denkmodell der Szenario- 
Technik 

Aus der Fulleder plausiblen, in sich stimmi- 
gen Szenarien wird jenes ausgewahlt, das die 
hochste Plausi bi I itat (nach den vorliegenden 
Expertenangaben) aufweist, das sogenannte 
«Trendszenario». Zusatzlich werden minde- 
stens zwei weitere «Extremszenarien» ausge- 
wahlt, einesmiteiner besonderspositiven, das 
andere mit einer extrem negativen Entwick- 
lungstendenz; fallszweckmalSig, konnen auch 
verschiedene «Extrementwicklungen» antizi- 
piert werden. 

Die Vorstellung ist, dal3 man mit der Aus- 
wahl von mindestens drei Szenarien ein 
«Trichtermodell» der zukunftigen Entwick- 
lung hat. Das Trendszenario entspricht der 



HauptachsedesTrichters, die Extremszenarien 
definieren die au&ere FI 01 1 e, der Trichter hat 
seine punktformige Spitze in der Gegenwart 
(hier fallen ja alle Szenarien zusammen) und 
erweitertsich im Verlauf derZeit immer mehr, 
so dal3 dann die verschiedenen Szenarien im- 
mer starker auseinanderklaffen. Je mehr Zeit 
vergeht, um so unsicherer wird auch die Pro- 
gnose, da immer mehr unkontrollierte und 
nicht vorhergesehene Storereignisse die Ent- 
wicklung verandern werden. 

Ziel solcher Studien ist es vor allem, durch 
rechtzeitig eingelegte MaBnahmen dafur zu 
sorgen, dal3 prognostizierte unerwunschte 
Szenarien nicht Realitat werden. 

Selbstverstandlich darf man auch dieErgeb- 
nisse sorgfaltiger Szenario-Studien nicht als 
unfehlbare Orakel interpretieren; sie bieten 
aber immer dann, wenn man zukunftige Ent- 
wicklungen sinnvoll steuern mochte - wie 
dies bei alien Fragen der antizipatorischen 
Oder prognostischen Evaluation der Fall ist - 
eine rationalere Grundlage als die personli- 
chen Zukunftserwartungen. 

Ablauf 

1. Strukturierung und Definition des Unter- 
suchungsfeldes 

2. Identifizierungund Strukturierung der wich- 
tigsten EinfluRbereiche auf das Unter- 
suchungsfeld 

3. Ermittlung von Entwicklungstendenzen 
und kri ti sch e Beschreibung der Umfel der 

4. Bildungund Auswahl konstanter Annahme- 
bundel 

5. Interpretation der ausgewahlten Umfelds- 
zenarien 

6. Einfuhrung und Auswirkungsanalysesigni- 
fikanter Storereignisse 

7. Ausarbeitung der Szenarien bzw. Ableiten von 
Konsequenzen furdasUntersuchungsfeld 

8. Konzeption von MaRnahmen und Planun- 
gen. 




ven Testverfahren, Einschatzungen der El tern 
Oder der spateren leistungsmaRigen Entwick- 
lung der Schuler in folgenden Klassen milSt, 
kann einen groBen Unterschied in dem 
Bewertungsergebnis ausmachen. Im einzelnen 
sind folgende Punktezu klaren: 

• Auswahl der Bewertungskriterien; hierzu 
mussen zunachst die Ziele moglichst detail- 
liert erfaBt und anschlieBend moglichst ide- 
enreich fur dieTeilzielegeeigneteVorschlage 
gefunden werden, danach isteineReduktion 
auf eine bewaltigbare Arbeitsmenge notwen- 
dig (4.2.1) 

• Nebenfolgenabschatzung; unabhangig von 
den eigentlichen Zielen ist damit zu rech- 
nen, daBjedeMaBnahmeauch mit nicht be- 
absichtigten und evtl. unerwunschten zu- 
satzlichen Konsequenzen verbunden ist, zu 
deren hypothetischen Formulierung dieVer- 
wendung von Handlungsmodellen nutzlich 
erscheint (4.2.2) 

• Als letzter Schritt ist die Operational isierung 
fur die einzelnen abstrakten Bewertungs- 
kriterien (und Nebenfolgen) festzulegen, wo- 
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bei ebenfallsnoch erheblicheFreiraume(und 
damit Veranderungen der Ergebnisse durch 
die Auswahl) vorhanden sind; wichtig er- 
scheint hier vor allem eine Konsensfindung 
mit dem Auftraggeber bzw. mit den relevan- 
ten Teilgruppen innerhalbdesAuftraggebers, 
da ansonsten mit einer nachtraglichen Ab- 
wertung der MeBinstrumente bei «uner- 
wunschten» Ergebnissen gerechnet werden 
muB (4.2.3). 

Wie aufwendig die einzelnen Teile in einem 
konkreten Projekt durchgefuhrt werden kon- 
nen, muB im Einzelfall unter Kosten/Nutzen- 
Aspekten entschieden werden. In keinem Fall 
sollteman auf eine «offizi ell e» Konsensfindung 
bzgl. der MeBinstrumente verzichten. 



4.2.1 Auswahl der 
Bewertungskriterien 

Bevor man zu den einzelnen Beurteilungs- 
dimensionen ubergeht, muB zunachst die Ziel- 
setzung der zu evaluierenden MaRnahmen 



Diagramm IV/ 4 

Kurzdarstellung der Planspiel-Technik (vgl. Baehrund Eberle, 1986) 



• Beim Planspiel handelt es sich um eineim 
militarischen Bereich entstandene Unter- 
weisungsmethode, die speziell dem Ent- 
scheidungshilfetraining dient. Dem Plan- 
spiel liegt immer eine reale Situation 
zugrunde, die in einem Modell simuliert 
wird. Auf diese Weisesoll die wechselseitige 
Abhangigkeit der einzelnen Systemelemen- 
te verdeutlicht werden und die Wirkung 
einzelner Entscheidungen auf das Gesamt- 
system transparent gemacht werden. Beim 
Planspiel ubernehmen die Teilnehmer die 
Rollevon Entscheidungsinstanzen. 

Auf Grund der modellartigen Simulation 
des Gesamtsystems konnen die Folgen der 
Entscheidungen ermitteltund bewertet wer- 
den. 

Die wichtigsten Elementedes Plan spiels sind: 

• Nachahmung der Realitat im Modell bzw. 



Reduktion der Realitat auf zielrelevante Fak- 
toren des PI an spiels. 

• Aktives Flandeln in Form abstrakter Denk- 
tatigkeit bzw. Interaktion der Spieler in der 
simulierten Realitat. 

• Flohe Motivationskraft durch Ausnutzung 
des dem Menschen innewohnenden Spiel- 
triebesund damit Wirkung und Verstarkung 
dessachbezogenen Interesses. 

• Rollenspielartige Ubernahme bestimmter 
Verhaltensweisen innerhalb der Simula- 
tionssituation. 

• Konflikttraining verursacht durch abwei- 
chende Zielvorstellungen zwischen den 
Spielgruppen, sowie innerhalb der einzel- 
nen Gruppen. 

• Training der Kommunikationsfahigkeit, da 
die gestellte Aufgabe einen Informations- 
austausch innerhalb der Gruppen, zwischen 
den Gruppen und zum Spiel leiter erfordert. 
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moglichst detai 1 1 iert werden. Das einfachste 
Vorgehen ist, wieder Hierarchien, wie in 4.1.1, 
auszuarbeiten. Fur das dort verwendete «ad- 
vanced organizer»-Beispiel waren dabei folgende 
Schritteerforderlich (Beispielenur ausder Sicht 
der Zielsetzung des Lehrers): 

Erfassung von: 

1. Analyse der Ist- Situation: 

• dem durchschnittlichen Leistungsniveau in 
der unterrichteten Klasse 

• der Motivation der Schuler, mit dem alten 
Lehrbuch zu arbeiten 

• den auftretenden Problemen, diesich bei der 
Arbeit mit dem alten Lehrbuch ergeben 

2. Festlegung der Richtziele (Grobzide): 

a) schulischeZiele 

b) personlicheZiele 

3. Bestimmung der Feinziele: 
mogliche Feinziele von a): 

• diadaktische Verbesserung desUnterrichtes 

• Straffung des Unterrichts 

• Verbesserung des Klassendurchschnitts 

• zeitokonomische Aspekte 

• Steigerung der Motivation der Schuler 

• Erleichterung der Informationsaufnahme 

• usw. 

mogliche Feinziele von b): 

• Demonstration von Innovationsfreudigkeit 

• Erhohung der eigenen Motivation 

• Floffnung auf hoheresAnsehen/Status 

• Zeitersparnis bei der Themenauswahl und 
Vorbereitung 

• Durchsetzung im Kollegium 

• wissenschaftlicheOrientierung 

• usw. 

4. FlierarchisierungderZidenach (subjektiven) Kri- 
terien. 

In gleicher Weise lassen sich naturlich die 
«Ziele» anderer Gruppen von Betroffenen (vgl. 
4.1.1) verfolgen. 

Das Finden von Zi el hierarchien und dazu 
passenden Bewertungsdimensionen solltenach 
Moglichkeit nicht als Einzelarbeit, sondern im 



Team erfolgen, da Gruppen fur solche Auf- 
gabentypen wesentliche Vorteile bieten, wobei 
eine interessens- und vorbildungsmaftig hete- 
rogene Gruppenzusammensetzung empfeh- 
lenswert sein kann. Statt Oder erganzend zum 
brainstorming (vgl. Diagramm IV/2) konnen fur 
solcheGruppensitzungen auch Metaplan-Tech- 
niken erfolgreich eingesetzt werden, dieGrund- 
struktur davon findet sich im Diagramm IV/ 5. 
Eine ausfuhrliche Darstellung geben Klebert et 
al. (1988),Schnelle(1982). 

Der Konsens zwischen alien Beteiligten, ge- 
radeauch bei offenen Oder verdeckten Konflik- 
ten innerhalb der Institutionen des Auftragge- 
bers, wird bzgl. der Kriterienauswahl im Prinzip 
am leichtesten erreicht, wenn alleauch nuran- 
nahernd sinnvoll erscheinenden Vorschlagein 
die Projektplanung aufgenommen werden. In 
einem solchen Fall kann sich jeder an dem 
FindungsprozeB Beteiligte im Projektplan wie- 
derfinden, und man kann auch sehr schwer 
sachlich argumentieren, daB das Erheben ir- 
gendeinesAspektes mit Sicherheit unnotig Oder 
gar schadlich sei. 

Man sollte aber zur Qualitatssicherung be- 
strebt sein, im Konsens der potentiellen 
«Konfliktpartner» eine Eingrenzung der Vor- 
schlagezu erreichen. Dabei konnen Techniken, 
wie sie im Abschnitt 4.3 besprochen werden 
(Diagramm IV/ 9) nutzlich sein. 

4.2.2 Nebenfolgenabschatzung 

Prinzipiell ist bei jeder MaGnahmenbewertung 
damit zu rechnen, dal3 diese nicht nur die ge- 
wunschten Effekte in mehr Oder weniger star- 
kem AusmaB zeigen wird, sondern zusatzliche 
Auswirkungen zeigt, die in keiner Weise der 
Ausgangsintention entsprechen (das Problem 
ist strukturell ahnlich wie dieTrennung von 
Haupt- und Nebenwirkungen im Therapiebe- 
reich). Diesbetrifftsowohl diezu evaluierenden 
Sachverhalte, als auch die Evaluationsstudie 
sel bst, d i e i h rersei ts u n erwartete Kon seq u en zen 
haben kann, die nichts mit der eigentlichen 
Zielsetzung zu tun haben (etwa erhohter Ein- 
satz der «mit-evaluierten» Lehrer im Schul- 
bereich, die Aufwertung von an sich nicht so 
wichtigen Projekten durch hohen Evaluations- 
aufwand, die Forderung der Durchsetzung ei- 
ner Innovation, da diese zu Uberprufungs- 
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Diagramm IV/ 5 

Grundstruktur der Metaplan-Methode (nach Schnelle, 1982) 



Definition 

Die Metaplan-Methode ist eine Gesprachs- 

bzw. Diskussionstechnik, diedurch hierarchie- 

freies Arbeiten Teilnehmer motiviert und de- 

ren Kreativitat fordert. 

DieTeilnehmer sammeln 

• durch Kartenabfrage Beitrage zu einer be- 
stimmten Problematik; 

• gewichten diese Probleme; 

• fassen die Beitrage zu Problembundeln zu- 
sammen; 

Der Moderator sorgt fur 

• den organ isatorischen Ablauf der Modera- 
tion; 

• Visualierung der Sach- und Beziehungs- 
problemein derGruppe; 

• Gleichberechtigung der Teilnehmer; 



Ablauf der Moderation 

Phase 1: Einstieg 

• Warming-up 

• ProblembewuRtsein derTeilnehmerschaffen 

• Interessen sichtbar machen 

Phase2: Bearbeitung der Problematik 

• Problemfragen formulieren 

• Problemspeicherung 



• Kleingruppenarbeit 

• Vorstellen der Ergebnissein derGruppe 

• Feedback entweder durch die Teilnehmer 
selbst Oder durch den Moderator 

Phase3: Finale 

• Erstellen eines Tatigkeitskatalogs in der 
Gruppe'KIeingruppe 

• Feststellen der Zufriedenheit und desGrup- 
penklimasdurch den Moderator 



Anwendungsgebiete 

• haufig in konflikttrachtigen Situationen (z. 
B. sehr gut geeignet zur Bildungsbedarfs- 
analyse) 

• zur Erarbeitung neuer Problemstellungen 

Vorteile 

• Selbstverantwortlichkeit der Teilnehmer 

• Anhaufung verschiedener Informationen, 
Meinungen, Ideen zu einer bestimmten Pro- 
blematik 

Nachteile 

• hoherpersonellerund finanzieller Aufwand 
(haufig sind zwei Moderatoren notig) 

• Ist die reale Ungleichheit der Teilnehmer 
uberhaupt ausgleichbar? 

• In welchem MaGengen nicht-veranderliche 
Strukturen den Entscheidungsraum ein? 



zwecken im kleinen Rahmen real isiert werden 
muG). Zu einer umfassenden Bewertung gehort 
es, auch solche Nebenfragen schon bei der Pro- 
jektplanung mit zu beachten. Das rechtzeitige 
Entdecken potentieller Nebenwirkungen istbe- 
sonders schwierig, weil diese ja eben nicht zu 
den ursprunglich intendierten MaBnahmen- 
zielen gehoren. Eine nutzliche H i I f e, um an 
moglichst vieledenkbare, aber nicht intendierte 
Folgen zu denken, ist die Berucksichtigung von 
Handlungsplanen (vgl. Diagramm 1/2). Fur jede 
irgendwie von den Evaluationsobjekten Oder 
der Evaluationsstudie selbst betroffenen Perso- 
nengruppen (vgl. 4.1.1) wird uberlegt, in wel- 
cher Weise sich dieMaBnahmen in diesen Pla- 



nen auswirken konnten, also ob sie fur die je- 
weiligen Person en 

•ein (neues Oder zusatzliches) Problem dar- 
stellen bzw. zur Folge haben 

• die Mittel fur die Bearbeitung bestehender 
Probleme verandern bzw. erweitern 

• die Flandlungsziele beeinflussen 

• die Bewertung der Konsequenzen von Ziel- 
errei chun gen verandern 



Einige Beispiele: 

• Eine politische Partei hat sich seit Jahren ve- 
hement fur eine bestimmte Schulorganisa- 
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tion eingesetzt; ein gegenteiligesEvaluations- 
ergebniskonnteu.a. dieGlaubwurdigkeit der 
Aussagen und ihr Prestige herabsetzen, so 
da(5 dieses zu einem «Problem» wurde (er- 
wartbare Folge: Maftnahmen zur Vermei- 
dung «unerwunschter» Resultate). 

• Lehrer, dieeinen methodisch schlechtgestal- 
teten Unterricht halten, konnen in der 
Verfugbarkeit didaktisch gut aufbereiteter 
Lern programme ein Mittel zur (parti el I en) 
Problemlosung sehen und daher darauf ver- 
zichten, ihren eigenen Unterricht adaquatzu 
verbessern (Folge: Reduktion des Bestrebens, 
sich selbst optimaler zu verhalten bzw. wei- 
terzubilden). 

• Der Entwickler eines speziellen Seminarpro- 
grammeszur Einfuhrung in dieTextverarbei- 
tung hat groftes person I iches In teresse an ei- 
nem «guten Abschneiden» dieser Methodik 
im Vergleich zu anderen Angeboten, so daft 
fur ihn ein entsprechendes Ergebnis als an- 
zustrebendes Ziel anzusehen ist (mogliche 
Folge: Einfluft auf die Auswahl der Alternati- 
ven, ganz besondere Anstrengung in den 
evaluierten, von ihm selbst gestalteten Semi- 
naren). 

• EineVeranderung in der Kostenerstattungfur 
Rettungsfahrten (bezahlt wird nur noch, 
wenn der Patient mindestenseinen Tag lang 
stationar im Krankenhaus behandelt wird) 
verandert die nicht unmittelbar medizini- 
schen Konsequenzen des arztlichen Flan- 
delns; wird nur ambulant versorgt, hat dies 
auch bei ausreichendem Behandlungserfolg 
fur den Patienten negativefinanzielle Konse- 
quenzen, dievom Arztevtl. nicht gewunscht 
werden. Noch massiver konnen dieAuswir- 
kungen bezuglich des «Flilfeverhaltens» von 
Mitmenschen sein, da die Fahrtkosten (die 
durchaus 300 DM betragen konnen) nicht 
immer vom potentiellen Patienten, sondern 
im Konfl i ktfal I von dem zu tragen sind, der 
den Wagen bestellt hat. 

In all diesen Fallen wareesprinzipiell moglich, 
bei rechtzeitiger Berucksichtigung durch Erwei- 
terung des Projektes dessen Leistungsfahigkeit 
zu erhohen, sei es durch Erganzung des Kri - 
terienkataloges, methodischer Vorkehrungen 
(zum Beispiel dieVermeidung von direkteroder 
auch nur indirekterSelbstevaluation) oderdoch 
zumindest die Empfehlung vorbereitender 



Maftnahmen im Partei/Schulsystem-Beispiel, 
insbesondere eine moglichst weitgehende Ver- 
meidung von Einfluftnahmeauf die Ausgestal- 
tung und Berichtlegung des Projektes. Ein Pro- 
blem kann sein, daft die Ausarbeitung solcher 
denkbarer Nebenfolgen als «zynisch» bezeich- 
netund von den Beteiligten als eine unsachge- 
mafte Unterstellung zuruckgewiesen wird - 
irrationales Verhalten politischer Parteien, feh- 
lende Innovationsfreudigkeit bei Lehrern, Ei- 
gennutz sowie die Berucksichtigung nicht-me- 
dizinischer Kriterien bei der Bestimmung der 
Behandlung durch Arzte verstoften gegen die 
sozial akzeptierten Normen der jeweiligen 
Gruppe. Bei einersolchen Erhebungsollteman 
daher die Ideensammlung mit Anonymisie- 
rungstechniken (etwa Metaplan, u.U. auch 
wirklich vertrauliche Interviews) durchfuhren 
und als Evaluator deutlich machen, daft diese 
Ideen nicht von dem Projektteam selbst ent- 
wickelt, sondern von praxiserfahrenen Auften- 
stehenden genannt wurden. 

4.2.3 Operationalisierungsfragen 

Nach Auswahl der theoretischen Bewertungs- 
kriterien der zu evaluierenden Maftnahmen 
mussen diese in konkreter Weise faftbar ge- 
macht werden. Dabei ergeben sich sowohl in- 
haltliche als auch methodische Probleme. 

Die inhaltliche Problematik (an welchen Be- 
obachtungen kann man dasAusmaft von «The- 
rapie-Erfolg» Oder «Lernfortschritt» erfasen?) 
ist nicht Gegenstand einer empirischen Wis- 
senschaft, sondern erfordert einegeisteswissen- 
schaftlich begrundete Setzung, etwa anhand 
von subjektiver Plausi bi I itat, Vertraglichkeits- 
kriterien mit «etablierten» Ansatzen oderunter 
Berucksichtigung von Nutzen-Uberlegungen 
(fur das prinzipielle Problem, daft sich die in- 
haltliche Seite der Operationalisierung der Be- 
urteilung durch empirische Forschung entzieht, 
siehe etwa Wottawa, 1988, Seite 73). Dies 
macht eine intensive Abstimmung mit dem 
Auftraggeber erforderlich, selbst dann, wenn 
man auf «bewahrte» Tests zuruckgreift. 

Die methodischen Probleme der Operationali- 
sierung sind zwar nahezu ebenso schwierig, 
aber wissenschaftlich leichter bearbeitbar. Im 
folgenden wird auf die Punkteeingegangen: 
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• Ideograph ische Ansatze 

• Nomothetische Ansatze; die Itemmengen 
sind definiert durch 

- Stoffgebiete 

- Konstruktionsregeln 

- eindimensionale Modelle 

Die Wahl des methodischen Ansatzes sollte in 
jedem Evaluationsprojekt moglichst nach 
Sachaspekten getroffen werden, auch wenn 
vielfach eine Berucksichtigung von Ressourcen- 
mangel nichtzu vermeiden ist. 



Ideographische Ansatze 

An Methoden dieser Art wird man denken, 
wenn die Evaluationsergebnisse stark in Abhan- 
gigkeit von Individuen bewertet werden mus- 
sen. Typische Beispiele: 

• Erfolgskrontrolle von psychologischer Bera- 
tung Oder Psychotherapien; fur einen Klienten 
kann die Reduktion des ubertriebenen Selbst- 
wertgefuhls, fur einen anderen die Steigerung 
dieser Dimension ein wesentliches Inter- 
ventionsziel sein, so daR einer die Personen 
umfassende M ittelung dysfunktional ware. 

• Bewertung von einzelnen MaRnahmen un- 
ter besonderer Berucksichtigung singularer 
Aspekte, vor allem im Zusammenhang mit 
formativer Evaluation; typisch dafur ist etwa 
die «wissenschaftliche Begleitung» von Mo- 
del I versuchen, dienicht auf normativ-verall- 
gemeinerte Aussagen hin orientiert ist, son- 
dern vorwiegend den Zweck hat, fur den 
einen zu evaluierenden Einzelfall moglichst 
optimaleGestaltungshinweisezu geben. 

• Interventionen, die qualitative Veranderun- 
gen von Zusammenhangsstrukturen zum 
Ziel haben, zum Beispiel Veranderung von 
Ablaufen in Organisationen Oder die bessere 
Gestaltung kognitiver Strukturen durch Wei- 
terbildung; hier kann nur der Vergleich der 
strukturellen Gegebenheiten vor und nach 
der Intervention die Evaluationsgrundlage 
bilden, was eine individuumsorientierte Er- 
hebung voraussetzt. 

Die haufigsten, aber auch «weichsten» metho- 
dischen Ansatze fur diese Art von Datenerhe- 
bung sind Interviews (mit anschlieRender 



einzelfallbezogener Darstellung) und «Fal I bei - 
spiele». SolcheAusarbeitungen haben oft einen 
hohen heuristischen Wert, bereiten aber 
Schwierigkeiten bzgl. der Verallgemeinerung 
der Ergebnisse. Auffallend ist auch, daR etwa 
im Zusammenhang mit den sehr kontrovers 
beurteilten Gesamtschulevaluationen in Nord- 
rhein-Westfalen einzelfallorientierte Ausarbei- 
tungen (Diederich und Wulf, 1979) eine we- 
sen tl i ch geri n gere offen 1 1 i ch e Reso n an z fan den 
als auf nomothetischer Messung aufbauende 
Studien (etwa Haenisch etal., 1979, Lukesch et 
al„ 1979), obwohl alledieseBerichtein derglei- 
chen Veroffentlichungsreihe erschienen sind 
und man annehmen konnte, daR zumindest 
fur die Offentlichkeit Fallbeschreibungen an- 
schaulicher sind alsTestergebnisse. Der Grund 
dafur konnte darin liegen, daR solche «wei- 
chen» Ausarbeitungen deutlich erkennbar in 
erheblichem AusmaRevon dersubjektiven Vor- 
einstellung der Untersucher abhangen, so daR 
die Glaubwurdigkeit von darauf gestutzten Be- 
wertungen vor allem in kontroversen Situatio- 
nen herabgesetzt ist. Man sollte solche Verfah- 
ren daher vor allem bei allgemeinem Konsens 
und insbesondere bei formativen Fragestellun- 
gen einsetzen. 

Die (unbeabsichtigte) EinfluRnahme des Un- 
tersuchers auf die Ergebnisse wird geringer, 
wenn man die ideographische Datenerhebung 
starker method isch strukturiert. Beispiele dafur 
sind Ansatze, deren Ziel esist, die fur diejewei- 
lige Fragestellung relevanten kognitiven Struk- 
turen der Gesprachspartner (auch «subjektive 
Theorien» Oder «Entscheidungsregeln» ge- 
nannt) zu erheben. Fruhe Beispiele dafur fin- 
den sich etwa im diagnostischen Bereich 
(Kleinmuntz, 1963) Oder auch der Erfassung 
subjektiver Theorien von Lehrern (vgl. dazu 
Flofer, 1975). Fur das Vorgehen bei solchen 
Erhebungen kann man sich zum Beispiel der 
Strukturlegetechnik (Scheele& Groeben, 1984) 
Oder des Pri nzi ps von HYPAG/Structure (Wotta- 
wa & Echterhoff, 1982) bedienen. Diese An- 
satze sind im Diagramm IV/ 6 bzw. IV/ 7 kurz skiz- 
ziert. Ein Anwendungsbeispiel fur den Bereich 
der Evaluation (Auswirkung einer Weiterbil- 
dungsmaRnahme) findet sich etwa in Wottawa 
& Hof, 1987. 

Fur manche Fragestellungen ist die entschei- 
dende Operational isierung zwar nur individu- 
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ell moglich, einemethodisch moglichsteindeu- 
tige Zusammenfassung der Einzelergebnisse zu 
einer Gesamtbewertung aber unbedingt erfor- 
derlich (was die beiden vorhergehend bespro- 
chenen Ansatze kaum leisten konnen), gerade 
im Bereich derTherapie-Evaluation. Flier ist das 
Ziel nicht nur eine Betrachtung des Interven- 
tionserfolges im Einzelfall, sondern eine ver- 
gleichend-verallgemeinernde Aussage uber die 
relative Bewahrung verschiedener Therapie- 
methoden fur spezielle Indikationsstellungen. 
Ein speziell dafur entwickelter Operationali- 
sierungsansatz ist die «Goal-Attainment-Scale» 
(GAS; s Franklin & Trasher, 1976, Wittmann 
1985), deren Grundprinzip im Diagramm IV/ 8 dar- 
gestel It ist, beinhaltet auch Bewertungsaspekte 
und wird daher im Abschnitt 4.3 besprochen. 
Die dort vorgenommene «Umrechnung» des re- 
aktiven AusmaGes des Erreichens verschiedener 



Ziele in Punktwerte ist zwar sicher subjektiv be- 
einfluBt und entspricht nicht den Vorstellungen 
h arter n omoth eti sch er M essu ng, ermogl i ch t aber 
eine objektivere und besser nachkontrollierbare 
Zusammenfassung der Einzelergebnisse als die 
anderen hier besprochen en ideographisch orien- 
tierten Vorgehensweisen. Beispiele fur die An- 
wendung der GAS fur Evaluationsfragen finde 
sich u.a. in Sherman, R. (1977). 



Nomothetische Messung 

Wird ein fur die Evaluation ausgewahlter theo- 
retischer Konstrukt fur eine nomothetische 
Messung, also fur alle betroffenen Personen in 
der gleichen Form, operational i si ert, so stellt 
sich die Frage nach der Rechtfertigung gerade 
dieser Indikatorenwahl - schlie&lich hangt das 



Diagramm IV/ 6 

Kurzdarstellung der Struktur-Lege-Technik (SLT) (nach Groeben und Scheele, 1984) 



Gundlagen 

Ziel der SLT ist die Rekonstruktion subjektiver 
Theorien. 

Darunter verstehen die Autoren «... ein Ag- 
gregat aktualisierbarer Kognitionen der Selbst- 
und Weltsicht mit zumindest impliziter 
Argumentationsstruktur, die eine (wen igstens 
parti el I e) Explikation bzw. Rekonstruktion die- 
ses Aggregates i n Paral lei itat zur Struktur wis- 
sen sch aftli cher Theorien erlaubt.» (Groeben & 
Scheele, 1984, S. 2), 

Zur Explikation dieser subjektiven Theorien 
werden eine Reihe von Kastchen verwendet, 
die Begriffe und Konzepte reprasentieren so- 
wie Kastchen, die die formalen Beziehungen 
zwischen diesen Begriffen und Konzepten 
festlegen. 



Arbeitsablauf 

1. Durchfuhrung eines halbstandardisierten 
Interviews mit der Vp, wobei sog. hypo- 
th esen -u n geri ch tete, h y poth esen -geri ch tete 
u n d Sto rf ragen ei n gesetzt werd en . 



2. DieVp erhalt zur Vorbereitung auf diefol- 
gende Sitzung, in der sie ihre subjektive 
Theorie konstruieren soil, den Struktur- 
Lege-Leitfaden, der die Grundprinzipien 
des Verfah ren s erl autert. 

3. Die Vp legt auf Grund der Interview- 
informationen fur sich bereits mit Hilfe 
der Kartchen eine seiner Meinung nach 
fur dieVp relevanteTheoriestruktur fest. 

4. In der Sitzung wird die Vp aufgefordert, 
ihre eigene Theoriestruktur zu rekonstru- 
ieren. Siekann dazu auch andereKonzept- 
karten benutzen, als die, die vom VL erar- 
beitet wurden. 

5. Die Theoriestruktur der Vp wird mit der 
des VLvergli chen und dieVp entscheidet, 
an welchen Stellen sie der Rekonstruktion 
des VL zustimmt Oder aber der eigenen 
Version den Vorzug gibt. 

6. Ausdem Vergleich der beiden Rekonstruk- 
tionen soil sich schlieSlich eine endgtil- 
tige, beide Versuche integrierende Version 
entwickeln. 
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Diagramm IV/ 7 

Kurzdarstellung von HYPAG/ Structure 



Grundlagen 

Ausgangspunkt ist die Uberlegung, daft 

• diemeisten Person en bei bloftem Befragen 
ihreeigenen Entscheidungsregeln auch in 
haufig auftretenden Situationen (Diagno- 
stik, Indikationsstellung) nicht zutreffend 
explizieren konnen; 

• der normale Entschei dungs- Oder Auswahl- 
ablauf auch keinerlei Veranlassung bietet, 
sein Regelsystem zu explizieren; diesum so 
mehr, alsdie Einarbeitung in die Entschei- 



dungsprozedur selten auf klar formulierten 
Regeln, sondern meist auf Nachahmungs- 
lernen Oder erst in an wend bare Regeln zu 
transformierenden Wissensbasen beruhte; 

• daher eine Situation geschaffen werden 
muft, in der die zu analysierende Person 
durch ein Wechselspiel von der Abgabesub- 
jektiver Begrundungen und deren Vergleich 
mitdem tatsach lichen Entschei dun gen ver- 
anlaftt wird, allmahlich «zutreffende» Be- 
grundungen ihres eigenen Verhaltens zu 
kommen. 



Verhalten 



Befragung 




Kreuzvalierung des als gultig angesehenen 
Regelsystems an Fallen, die nicht zur Erstel- 
lung herangezogen wurden. 

Einleitung praktischer Maftnahmen, je nach 
Zielsetzung etwa: 

• Intervention zur Anderung nicht optimal 
ersch ei n en der Tei I regel n 

• Bewertungvon Interpretationen durch den 
Vergleich des Regelsystems vor und nach 



der Maftnahme (z. B. Training, Beratung, 
Therapie) 

• Aufbereitung von Informationen in einer 
den Entscheidungsregeln entsprechenden 
Form (Akzeptanz von Materialien, Erleich- 
terung der Entscheidungsfindung) 

• Erarbeitung von Entscheidungshilfen, meist 
computergestutzt. 
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Diagramm IV/ 8 

Kurzdarstellung des Goal-Attainment-Scaling (nach Wittmann, 1981) 



Definition 

GAS ist ein Oberbegriff fur eine Vielzahl von 
Techniken, diealleauf spezifischeKlien ten ziele 
und skalierbareTeilschrittezugeschnitten sind 
(meist im klinischen Bereich eingesetzt). 

Ziel 

Bestimmungderdurch eineMaGnahmezu er- 
rei chen den Effekte 

Durchfuhrung 

• Auswahl relevanter Kriterien fur den kon- 
kreten Einzelfall (z.B. Festlegung und Spezi- 
fikation von klaren und realistischen Be- 
handlungszielen); 

• Exakte, empirisch moglichst eindeutige Be- 
schreibung dieser Kriterien; 

• Ziele werden auf einer 5-Punkte-Skala ska- 
liert: 

- Punktwert 0: ein erwarteter wahrschein- 
licher Ausgang unter der Annahme einer ef- 
fektiven Behandlung 

- Punktwert -1 bis -2: Kategorien weniger 
erwunschter Ausgange 



- Punktwert +1 bis +2: Kategorien von be- 
sonders erwunschten Ausgangen, wobei +2 
das bestmogl i ch e Ergebn i s darstel It; 

• Jeder Zielbereich wird seiner relativen Be- 
deutung nach in Relationen zu den ande- 
ren gewichtet. Dadurch soil der Wert dieses 
Zieles in Relation zu den anderen sichtbar 
werden . 

Anwendung 

• vorallem im klinischen Bereich Verbreitung 
als Evaluationsinstrument, GAS beteiligt den 
Klienten besonders stark, bietetunmittelbare 
Ruckmeldung der Behandlungsergebnisse 
ausdem Einzelfall an den Therapeuten 

• auch einsetzbar fur Ziele einer Einrichtung, 
die soziale Oder padagogische Programme 
durchfuhrt 

Probleme 

• Su bj ekti ve Bewertu n g al I er Aspekte, vor al - 
lem Bel i ebi gkeit der Ziele 

• Validitat des Verfahrens ist auf Grund der 
Individualspezifitat schwer abschatzbar 



Evaluationsergebnisjaganzwesentlich von der 
genauen Ausformung desMelSinstrumentesab. 

Eine denkbare Moglichkeit ist es, unsystema- 
tisch eine groftere Anzahl von Einzelindi- 
katoren (Items, Beobachtungen u. dgl.) zu sam- 
meln und uber die einzelnen Fragen einen 
Konsens herbeizufuhren. Da fur die meisten 
Kriterien die Erfassung mit einem einzelnen 
Item zu wenig aussagekraftig ist (Einteilung der 
Personen nur in so viele verschiedene Klassen 
alsAntwortmoglichkeiten vorgesehen sind, ge- 
ringe Meftgenauigkeit) kann man im Nachhin- 
ein mit deskriptiven Verfahren wie der Fakto- 
renanalyse versuchen, die Informationsmenge 
inRichtungaufeinige beso n d ers «wesen 1 1 i ch e» 
Kriterien hin zusammenzufassen. 

Ein solches Vorgehen durfte in der Eva- 
luationspraxis gar nicht so selten sein, bringt 
aber erhebliche Nachteile mit sich. Eine un- 
strukturierte Oder nur schwach an Kriterien- 
vorstellungen orientierte Itemsammlung wird 
im allgemeinen weniger Einfalle erbringen als 
ein systematisiertes Vorgehen (vgl. dazu Ab- 



schnitt 4.1.1), einenachtraglicheAufnahmefur 
die Nicht-Berucksichtigung weiterer Vorschlage 
ist schwierig, und stets bleibt offen, ob die im 
Nachhinein den Datensatz zugrundegelegten 
Dimensionen den eigentlich angestrebten theo- 
retischen Bewertungskonstrukten entsprechen. 
Aus diesen Grunden sollte ein solches «per- 
fiat»-Vorgehen nur dann gewahlt werden, 
wenn aufgrund gegebener Rah men bed in gun gen 
ein sorgfaltiger strukturiertes Vorgehen nicht 
moglich ist. 

Eine andere Moglichkeit ist es, fur die einzel- 
nen Kriterien auf bereitsvorhandeneund mog- 
lichst gut konstruierte Test- Oder Erhebungs- 
verfahren zuruckzugreifen. Man kann damit 
ei n e ei gen eEntwicklun gsarbei t sparen , der Ver- 
gleich mit anderen Untersuchungen wird we- 
sentlich erleichtert und die Verantwortung fur 
evtl. doch bestehendeSchwachstellen der Mes- 
sung wird an die ursprunglichen Autoren de- 
legiert. Prufen muG man allerdings, ob die 
konkrete Operationalisierung auch tatsachlich 
einer Evaluationsfragestellung, die meist Veran- 
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derungsaspekte zum Inhalt hat, auch gerecht 
wird. Dazu einige Bei spiel e: 

• Erfassung des Therapieerfolges an einer Be- 
findlichkeitsskala, die auf maximale Relia- 
bility hin konstruiert wurde- esbesteht die 
Gefahr, daB durch die Itemselektion bei der 
Testkonstruktion geradedie besondersande- 
rungssensitiven Items eliminiert wurden, was 
d i e Aussagekraft fu r ei n e I n terven ti on sbewer- 
tung senkt. 

• Anwendung eines Fragebogens fur «Fuh- 
rungssti I », bei dem die Probanden das ihrer 
Meinung nach richtige Verhalten in vorge- 
gebenen Beispielsituation anzugeben haben 
- unabhangig von Evaluationsprojekten kann 
ein solches Vorgehen durchaus Informatio- 
n en u ber d as tatsach I i ch e Fi) h ru n gsverh a I ten 
indirekt erschlieBen lassen, nach gezielten 
Interventionsprogrammen ist aber die Ge- 
fahr hoch, dalS dieTeilnehmer im Sinneder 
Veran stal tu n gsi n h al te an tworten , oh n e auch 
nur im geringsten daran zudenken, ihreEin- 
stellungen Oder gar das Verhalten zu modifi- 
zieren. 

• Verwendung eines in international Ver- 
gleichsstudien entwickelten Tests fur Fremd- 
sprachen fur die Evaluation einer neuen 
Lehrmethode; war die Zielsetzung der Aus- 
gangsstudie (zum Beispiel der Erwerb von 
Grundfertigkeiten wie Wortschatz Oder ele- 
mentare Grammatik) und die Spezifitat der 
Intervention (zum Beispiel «Verbesserungder 
kommunikativen Fahigkeiten») nichtausrei- 
chend ahnlich, ist dieses MeBinstrument 
auch dann nichtzu empfehlen, wenn esme- 
thodisch noch so fundiert ist. 

Die besondere Zielrichtung von Evaluations- 
projekten erfordert leider im Prinzip haufig eine 
spezifische Neukonstruktion der MeBinstru- 
mente, auch wenn eine solche aus Zeit- und 
Kostengrunden in der Praxis haufig nichtgelei- 
stet werden kann. Zumindest in groBen Projek- 
ten und vorallem dann, wenn dieVerwendung 
der MeBinstrumente im Langsschnitt vorgese- 
hen ist, sollte man aber stets eine sorgfaltige 
MeBkonstruktion anstreben. Flierbei konnen 
folgendedrei Ansatze wichtig werden: 

• Stoffgebietemit Umsetzungsregeln 

• Systematisierte Itemkonstruktion 

• Eindimensionaleprobabilistische Model le 



Festlegung von Stoffgebieten 

Vorallem im padagogisch-psychologischen Be- 
reich liegen fur manche Teilgebiete komplette 
Operational isierungen der Bewertungskriterien 
vor, vorallem bzgl. kognitiver Lerninhalte. Der 
W i ssen sstoff f u r ei n besti m mtes Fach ergi bt si ch 
im Prinzip aus der Zusammenfassung aller da- 
fur zugelassenen Lehrbucher, die (bisherigen) 
Abituranforderungen finden sich in der Menge 
aller gestellten Prufungsthemen, Kriterien der 
«Schulreife» ergeben sich durch eine zusam- 
menfassende Sammlung der fur die erfolgrei- 
che Einschulung erforderlichen Verhaltens- 
weisen. Daher wird in diesem Bereich die 
Testkonstruktion starker als in anderen Teilge- 
bieten auf der sogenannten «kriteriumsorien- 
tierten Messung» (vgl. dazu Klauer, 1987) auf- 
gebaut, wobei leider diese Bezeichnung zu 
M iBverstandnissen fuhren kann - gemeint ist 
nicht eine Erhohung der Test/Kriteriumsbezie- 
hung im Sinne einer korrelativen Kriteriums- 
validitat, sondern diesachgerechteZusammen- 
stellungvon Itemsatzen auseinerdasKriterium 
definierenden Gesamtmenge (vgl. dazu auch 
den Begriff der I n h al tsval i d i tat etwa bei 
Cron bach, 1978). 

Kann man von einer solchen Stoffmengeaus- 
gehen, ist es nur noch erforderlich, ein objekti- 
vesVerfahren zur Umsetzung in konkreteMeB- 
instrumente vorzunehmen. Dies ist manchmal 
vollig unproblematisch, etwa ein Zusammen- 
stellen aller in den zu Iasi gen Englisch-Lehr- 
buchern verwendeten Vokabeln und Bildung 
einer Zufallstichprobe daraus fur einen Wort- 
schatztest. Der Aufwand ist hoher, wenn fur 
die Fragenerstellung Umformungen erforder- 
lich sind, aber auch dann leistbar - man kann 
etwa die Beherrschung des Faches «Geschich- 
te» so erfassen, daB man aus der Menge aller 
Absatzein den zulassigen Lehrbuchern wieder- 
um nach Zufall auswahlt und fur jeden dieser 
Absatze nach moglichst objektiv befolgbaren 
Regel n eine Frage erstel It. Zwar wird in einem 
solchen Fall dieAbhangigkeit vom Itemersteller 
relativ hoch sein (insbesondere bei multiple- 
choice-Aufgaben, wenn die Wahl der Dystrak- 
toren eine Rolle spielt), aber bei entsprechen- 
der Schulung sollte sich daraus keine ent- 
scheidende Verzerrung der MeBinstrumente 
gegenuber der Gesamtheit der Stoffmenge er- 
geben. 
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Ein solches Vorgehen hat, wenn dieVoraus- 
setzung ei ner konsensmaRig akzeptierten Stoff- 
menge tatsachlich gegeben ist, eine Reihe von 
Vorteilen, insbesondere 

• objektive, nachprufbare und damit sehr 
kritikresistente Fragenkonstruktion 

• eine Kontrolle der Einhaltung normativer 
Standards wird aufgrund objektiver Zielvor- 
gaben moglich (schlieRlich sollten die I nhal- 
teder Lehrbucher bzw. der Lehrplanejaauch 
tatsachlich beherrscht werden!); diesermog- 
licht eine bessere Ergebnisbewertung als die 
mit ublichen Verfahren erzielten Vergleiche 
versch i eden er Tei I gru ppen . 

• Es sind wiederholte Messungen bei Sicher- 
stellung der Vergleichbarkeit ohne Vertrau- 
lichkeits- und Coaching-Probleme moglich; 
gelingt eine objektive Umsetzung von Stoff- 
menge in Items, so kann man von MeR- 
zeitpunkt zu MeRzeitpunkt nach diesen 
Regeln neue Tests zusammenstellen, die 
trotzdem die gleiche Stoffmenge erfassen 
und mit Ausnahme von Zufallsschwan- 
kungen auch die gleiche durchschnittliche 
Schwierigkeit aufweisen. Da stetsandere Fra- 
gen verwendet werden, ist auch Verletzung 
der Vertraulichkeit und eine an den in den 
vorgehenden Untersuchungen verwendeten 
Items orientierte Testvorbereitung nicht 
moglich, und ein anderes sinnvolles 
Tranining ware identisch mit dem ohnedies 
vorgegebenen Ziel, diedefinierte Stoffmenge 
moglichst umfassend zu erlernen. 

Problematisch sind bei diesem Vorgehen die 
MeReigenschaften der so gewonnen Instru- 
mente. Dadie«Stoffmengen» in sich sehr hete- 
rogen sein konnen, konnen dieeinzelnen Items 
vollig unterschiedlicheAspekteansprechen, de- 
ren Zusammenfassung zu einem Kriteriums- 
wert nicht durch wissenschaftliche Aspekte, 
sondern nur durch die meist wissenschafts- 
extern definierte Stoffmenge gerechtfertigt ist. 
In Abhangigkeit von den Schwankungen der 
Itemschwierigkeiten (die u.a. von der jeweili- 
gen Ausgangsmenge, etwaderGestaltungeines 
konkreten Lehrbuches, abhangt) kann esauch 
sein, daR fur versch i eden eTestformen mit aus- 
reichend ahnlicher Schwierigkeit relativ groRe 
Itemmengen erforderlich sind. Zu den MeR- 
eigenschaften gehortauch das Problem, daR bei 



unrealistischer Zielvorgabe (haufig wird dies 
etwa bei Lehrplanen unterstellt) die danach 
konstruierten Itemmengen insgesamt viel zu 
schwierig werden und damit nur eine geringe 
Differenzierungsfahigkeit zwischen den einzel- 
nen Probanden erlauben. 

Da diese Probleme aber weniger Oder uber- 
haupt nicht ins Gewicht fallen, wenn man 
nicht am Vergleich von Einzelpersonen, son- 
dern von ganzen Gruppen (Schulen etc.) inter- 
essiert ist, sollte man an diese Technik der 
Testerstellung vor allem dann denken, wenn 
viele Einzelergebnissezu relativ global en (Insti- 
tutions-) Bewertungen zusammengefaRt wer- 
den, wasja gerade im padagogischen Bereich 
haufig ist. Bei der praktischen Anwendung sollte 
man daruber hinaus zu einer Erhohung der 
Differenziertheit der Aussagen versuchen, die 
Stoffmenge nicht zu global festzulegen, son- 
dern versch i eden e Untergruppen (etwa Wort- 
schatz, passive Sprachbeherrschung etc.) zu bil- 
den, aus denen jeweils eine Itemstichprobe 
gezogen wird. 



Systematische Itemkonstruktion 

Um die Nachteile einer willkurlichen Oder nur 
vageassoziativ zu einem Oberbegriff passenden 
Itemerstellung zu vermeiden, kann man versu- 
chen, sich an explizite Konstruktionsregeln zu 
halten. H ierfur sind zwei verwandte Denkan- 
satze verbreitet: 

• Die «Facettentheorie» (Guttman, 1957; Borg 
1981.) geht davon aus, daR verschiedene 
Aspekte der Aufgaben (im Beispiel «Grund- 
rechenfertigkeit» etwa die vierGrundrechen- 
arten, die Teile des Zahlenraumes «Einer, 
Zehner, Flunderter»dieBerucksichtigung po- 
sitiver und negativer Zahlen sowie nur gan- 
zer Oder auch Dezimal zahlen) zu einzelnen 
«Facetten» kombiniert werden (eine solche 
ware etwa die Kombination «M ultiplikation 
von positiven ganzen Zahlen mit hochstens 
zweistelligen Ergebnissen».) Nach diesem 
Prinzip lassen sich auch Skalen fur die Be- 
wertung von Therapien erarbeiten (etwa bei 
Kernberg et al„ 1972;). Dort wurden 16 
Aspekte mit jeweils 2 bis 7 Auspragungs- 
graden erarbeitet und aus der Vielzahl der 
damit moglichen Facetten eineTeilmengefur 
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das Evaluationsinstrument ausgewahlt. Fur 
die Konstruktion von Intelligenztests vgl. 
auch Jager, (1967). 

• Die «rationale» Oder «regelgeleitete» Item- 
konstruktion besteht in der systematised en 
Kombination kognitiver Prozesse, die fur die 
Aufgabenlosung benotigt werden. Ahnlich 
wie bei der Facettentheorie erleichtert dieses 
Vorgehen die Bildung grower, in ihrer Struk- 
tur bekannter Itemmengen, wiesieinsbeson- 
dere fur maBgeschneidertes, computer- 
gestutztes Testen (Vorgabe einer fur jeden 
Probanden nach individueller Trennscharfe 
ausgewahlten Itemmenge) benotigt werden. 
Allerdings kann die Kombination von An- 
forderungen unerwartete Effekte im Sinne 
von Wechselwirkungen ergeben (zum Bei- 
spiel die Moglichkeit, dieAntwort auf einem 
viel leichteren Weg zu finden, als bei der 
Konstruktion intendiert), so dalS dietatsach- 
liche Homogenitat der Items zusatzlich zur 
Einhaltung der Konstruktionsprinzipien mit 
probalistischen Testmodellen empirisch ge- 
pruft werden mul$. Ein Beispiel dafur gibt 
Flornke, (1986). 

Verglichen mit der Festlegung von Stoffmengen 
hatdieser Ansatzden Nachteil, keinean einem 
bereits bestehenden externen Maftstab orien- 
tierte Aussage zur Bewertung der erbrachten 
Testergebnisse leisten zu konnen. Im ubrigen 
ist er mit dem zuerstdiskutierten Vorgehen hin- 
sichtlich der Leistungsfahigkeit vergleichbar, 
vor allem ist ebenfalls eine Testwiederholung 
mit jeweils verschiedenen, aber strukturell glei- 
chen Items moglich. Dies ist vor allem dann 
wichtig, wenn die gleiche «Dimension» im 
Langsschnitterfaftt werden soil (Lernfortschritte 
einzelner Schuler, Veranderungen durch thera- 
peutischen Eingriffe zu vielen Zeitpunkten 
wahrend der Behandlung, Kontrolle der Aus- 
wirkungen einer Werbeaktion unter Benutzung 
eines Langsschnitts-Panels) und man zur Ver- 
meidung von Storeffekten mit jeweils unter- 
schiedlichen Itemsarbeiten mochte. DasWech- 
seln der Aufgaben ist zum Beispiel ganz 
besonders wichtig bei wiederholten Evalua- 
tion smessun gen im Schulsystem. Auch weiS 
man mehr uber die Struktur der von den ein- 
zelnen Items angesprochenen Dimensionen, 
und man hat eine hohere Chance, besonders 
wunschenswerte Mefteigenschaften (effektive 



Gultigkeit eindimensionaler Model le) inner- 
halb der einzelnen «Facetten»zu erhalten. 



Eindimensionale probabilistische Modelle 

Diesersich an den methodischen Aspekten von 
Messung orientierende Ansatz (fur eine Uber- 
sichtsieheLord & Nowick, 1968; Fischer, 1974, 
Flenning 1974, betrifft in keiner Weise die in- 
haltliche Festlegung der Indikatoren, sondern 
nur deren im Hinblick auf MeBeigenschaften 
opti male Zusammenstel lung. Da«eindimensio- 
nal» als eine besondere Definition von «ahn- 
I i ch » aufgefa&t werden kann (vgl. dazu 
Wottawa, 1979), ist es im Prinzip moglich, fur 
jedes einzelne Item (etwa aus einer Stoffmenge 
ausgewah It Oder auf andere Weise konsensmalSig 
festgelegt) unabhangig von seiner psychologi- 
schen Komplexitat durch das Hinzufugen ent- 
sprechend gleich strukturierter Fragen (hierbei 
konnen die Prinzipien der rationalen Item- 
konstruktion helfen) eineganze Dimension zu 
erstellen. Der Erfolg einer solchen Test- 
konstruktion hangt im allgemeinen nur vom 
Einfallsreichtum desllntersuchersab, so da8 die 
Verwendung solcher Modelle im Prinzip keine 
Einschrankung der inhaltlichen Vielfalt bedeu- 
tet. Siesind daher kein Ersatz, sondern eine Er- 
ganzung der inhaltlich orientierten Ansatze. 

DerVorteil liegtin den MelSeigenschaften fur 
Einzelpersonen, insbesonderedurch dieAnpas- 
sung der Itemschwierigkeit an den Leistungs- 
stand verschiedenerSubgruppen (Schulformen, 
Leistungskurse, Altersstufen). Sie ermoglichen 
besser als al le Alternativen die Beobachtung 
von Entwicklungsverlaufen einzelner Person en 
im Langsschnitt. Fur Evaluationsfragestellun- 
gen genugt esubrigensim allgemeinen, mit re- 
lativ schwachen Modellen (Mokken-Skalierung 
Oder dreiparametrige logistische Modelle) zu 
arbeiten, da MelSeigenschaften bzgl. der einzel- 
nen Items (etwa ein spezifisch objektiver Ver- 
gleich der Items untereinander), dierestriktive- 
re Modelleerfordern, fur die Projektzielsetzung 
meist nicht erforderlich sind. Trotzdem kann 
der Aufwand fur die Vortestung und entspre- 
chende Modifikation der vorgeschlagenen Ska- 
len ganz erheblich sein, so da8 unter Effizienz- 
gesichtspunkten der Verzicht auf diese Modelle 
die bessere Alternative sein kann, vor allem 
dann, wenn nur Gruppenvergleiche interessie- 
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ren. Ein sehr interessanter, auch unter Effizienz- 
gesichtspunkten fur Evaluationsprojekte sinn- 
vol ler Ansatz auf dieser Basis ist dassogenan nte 
«Matrix-Sampling» (Miles und Huberman, 
1984). 



4.3 Bewertungs- und 
Entscheidungshilfen 

Mit dem Erheben der Bewertungskriterien en- 
detder «naturwissenschaftliche»Teil der Arbeit 
an Evaluationsprojekten. Nach AbschluG dieser 
Arbeit liegen im glucklichen Fall alle relevan- 
ten, empirisch erfaRbaren Informationen fur 
ei n e summati ve (Auswah I -) Oder formati ve Ent- 
scheidung vor, die wissenschaftliche Arbeit ist 
eigentlich zu Ende. 

Wieschon dasWort «Evaluation»sagt (vgl. Kap. 
1), umfaRt dieArbeit des Evaluators aber mehr 
als das Aufzeigen von sinnvoll gewahlten em- 
pirischen Fakten. Eine «Bewertung» ist nur 
moglich, wenn dieobjektiv bestehenden Fak- 
ten in nur subjektiv existierenden «Nutzen» 
ubersetzt und das weitere Vorgehen nach dem 
Prinzip der Nutzenmaximierung geplant wird. 
Dieses erfordert einerseitseineKlarung der Fra- 
ge, wessen Nutzen optimiert werden soil (siehe 
dazu Abschnitt 4.1), ein Problem, das insbe- 
sonderein Folgedes Bestehensvon Abhangig- 
keitsverhaltnissen zwischen Evaluator und Auf- 
traggeber (etwa als Dienstherr, Arbeitgeber Oder 
Financier der Studie - und viel leicht noch fol- 
gender!) die profession el I e Ethik des Evaluators 
beruhren kann. Andererseits ist damit zu rech- 
nen, daR die Umsetzung der empirischen Fak- 
ten in NutzenwerteoderGlobalentscheidungen 
den «Abnehmern» der Evaluationsergebnisse 
oft sehr schwer fallt, so daR es mit die Aufgabe 
des Evaluators ist, diesen UbersetzungsprozeR 
durch geeignete Sozial tech ni ken zu unterstut- 
zen. Flierzu liegt eine Fulle von Ansatzen vor, 
die wichtigsten sind im Diagramm iv/9 zusam- 
mengefaRt. 

In den folgenden drei Abschnitten konnen fur 
die Bereiche Nutzen messung, Entscheidung 
durch Experten und Entscheidung durch Be- 
troffenejeweilsnur dieallerwichtigsten Ansatze 
diskutiert werden. Die wichtige praktische Ein- 



ubung in die jeweiligen Verfahren kann durch 
die theoretischen Konzepte nur unterstutzt, 
aber sicher nicht ersetzt werden. 



4.3.1 Explizite Verfahren 
der Nutzenbestimmung 

Fur eineobjektive, formal i si erte Nutzenbestim- 
mung sind folgendeTeilschritteerforderlich: 

• fur jedes Evaluationsobjekt muR der Aus- 
pragungsgrad auf den festgelegten Kriterien 
erhoben werden; zum Beispiel: Ergebnisse 
der Schuler eines Schu I systems (Evaluations- 
objekt) in einem Vokabeltest im Englischen 
(eines der Bewertungskriterien). 

• fur jeden empirisch gefundenen Auspra- 
gungsgrad einesjeden Bewertungskriteriums 
muR der «Nutzen» festgestellt werden; die- 
sen Vorgang nennt man «Nutzenmessung», 
und dieser erfordert subjektiveSetzungen (im 
Beispiel muR jemand festlegen, wie nutzlich 
zum Beispiel ein Ergebnisvon durchschnitt- 
lich 20 richtigen Losungen im Vergleich zu 
nur 15 richtigen Antworten ist). 

• liegen mehrere Bewertungskriterien vor, muR 
bestimmt werden, wie die einzelnen Ergeb- 
nisse zu einem «Gesamtnutzen» zusammen- 
gefaRt werden konnen; dies nennt man 
«Nutzenverrechnung» (im Beispiel waren 
etwa die gefunden Nutzenwerteauf den Kri- 
terien Vokabeltest Englisch, Rechenaufga- 
ben, Wohlbefinden in der Klassengemein- 
schaft etc. zu verrechnen - keineganz leichte 
Aufgabe!). 

Die Probleme werden noch dadurch verstarkt, 
da(5 der «Nutzen» fur verschiedene Gruppen 
von Betroffenen bzw. Entscheidern sehr unter- 
schiedlich gesehen werden kann. Werden etwa 
verschiedeneTherapieformen fur Alkoholkranke 
anhand der Kriterien «Dauer des Aufenthaltes 
in einer Such tkl i n i k» und «Ruckfallquote» eva- 
luiert, konnen Patienten, Klinikleitung und 
Kostentrager sehr unterschiedliche Nutzenbe- 
wertungen haben. Fur die Klinikleitung mag 
ein langerer Aufenthalt auch hoheren Nutzen 
haben, zumindest bei unvollstandiger Kapazi- 
tatsauslastung (Einnahmensicherung), fur die 
Kostentrager ist jeder Tag weniger eine wich- 
tige Einsparung, und fur den Patienten (und 
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Diagramm IV/ 9 

Ubersicht uber einige wichtige Techniken zu Entscheidungs- und Bewertungshilfen (Auswahl) 



Vorwiegend monetare Ansatze 

• Kosten-Nutzen -Analyse 

• Kosten-Effektivitats-Analyse 

• Methoden der Kosten- und Investitions- 
rechnung 

• Management Systems (z.B. Management 
by Budgeting Systems PPBS) 

Nutzenbestimmung durch Betroffene 

• Concret goal setting (GS) 

• Goal-Attainment-Scaling (GAS) 

• Goal -Orientate + Automate + Progress Note 
(GAP) 

• Patient Progress Record (PPR) 

• Informierte Einzelentscheidung 

• Planungszelle 



Bewertung durch Experten 

• Experten urtei I 

• Gruppendiskussion 

• Szenario-Technik 

• DELPHI-Technik 

Elaborierte wissenschaftliche Ansatze 

• Entscheidungsanalyse(EA) 

• Soziale Urtei lsbildungstechnologie(S|T) 

• M u I ti -Attri buti ve N utzen technik(MAUT) 



evtl. den Kostentrager) kann vorallem dieVer- 
hinderungvon Ruckfallen dieallesandereuber- 
ragendeBedeutung haben. Sofern so stark diver- 
gierendeBewertungen wirklich vorliegen, isteine 
«objektive» Nutzenbestimmung kaum moglich. 

Die hier angedeuteten Schwierigkeiten sollen 
nicht zu einer Abwertung expliziter Verrech- 
nungsverfahren fuhren. DieProblemebestehen 
in gleicher Form bei alien anderen Entschei- 
dungsverfahren, nur werden sie dort weniger 
deutlich, was fur eine sachgerechte Losung oft 
von Nachteil ist. 



Nutzenmessung 

Die Ubersetzung einzelner Kriteriumsauspra- 
gungen in zugeordnete Nutzenwerte erf u 1 1 1 
zwei Funktionen: 

• Sie ermoglicht die Anwendung formal isier- 
ter Bewertungs- bzw. Entscheidungsverfah- 
ren, vorallem bei Vorliegen harter (Interval I - 
Oder Rational-) Skalen, etwa nach dem 
«Erwartungs-mal-Wert»Prinzip (siehe dazu 
Winterfeldt, 1974) 

• Auch bei schwachen (Rang-)Skalen tragt die 
Nutzenmessung zur Problemexplikation bei 
und kann damit eine rationale, konsens- 
bezogene Entscheidungsfindung auch ohne 



formal i si erte Verrechnungsmethoden er- 
leichtern. 

Die Vorteile einer auch nur auf Ranginfor- 
mation aufbauenden Nutzenmessung werden 
deutlich, wenn man sich uberlegt, daft ein 
monotoner Zusammenhang zwischen Krite- 
riumsauspragung und N utzen in keiner Weise 
selbstverstandlich ist (fur verschiedene Funk- 
tionsverlaufe vgl. Diagramm iv/ to). Zwar gibt es 
sicher oft monotone Zusammenhange, doch 
sollte man dies nie ungepruft voraussetzen, 
nicht einmal bei so einfachen Aspekten wie 
«Preis» Oder «l n tel I ektu el I e Leistungsfahigkeit» 
- eine besonders billige Ware kann leicht nur 
wegen des Preises als qualitativ minderwertig 
eingestuft werden (was den N utzen des Kaufes 
entsprechend subjektiv senkt), und ob eine 
Spitzenintelligenz fur einfachste Berufstatig- 
keiten (wegen dem subjektiven Anspruchsni- 
veau) Oder fur Konzentration erfordernde Ta- 
tigkeiten wie etwa Autofahren (etwa wegen der 
intensiven gedanklichen Beschaftigung mit ei- 
nem Problem) wirklich besser geeignet ist als 
ein durchschnittlich begabter Mensch, ist zu- 
mindestfraglich (man vergleicheetwadieeben- 
fal I s i n verte u-form i ge Bezi eh u ng zwi sch en An - 
strengung und Leistung, sieheetwa Kleiner und 
Flukla, 1970). Zunachst monoton verlaufende 
und ab einem Grenzwert weitgehend konstant 
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bleibende Kriteriums'Nutzenbeziehungen fin- 
den sich u.a. bei den sogenannten «Hygiene- 
Faktoren» der Arbeitsplatzgestaltung (Herzberg 
1959, S. 66). Die Verbesserung solcher Aspekte 
(etwa Senkung der Larmbelastung) erhoht bis 
zu einer gewissen Grenze den Nutzenaspekt 
«Arbeitszufriedenheit», jenseits eines solchen 
kritischen Wertes fuhrt eine weitere Verbesse- 
rung der objektiven Fakten aber nicht mehr zu 
einer Nutzensteigerung. 

Fur das Erarbeiten der im konkreten Anwen- 
dungsfall vorliegenden Kriterium^Nutzen- 
beziehung wurde eine Reihe von technischen 
Vorgehensweisen entwickelt, die sich vorallem 
hinsichtlich des Aufwandes bei der Durchfuh- 
rung desnutzenbezogenen Vergleichszwischen 
den einzelnen Auspragungsgraden und, damit 
zusammenhangend, dem angestrebten Skalen- 
niveau der Nutzen dimension unterscheiden. 
Einige wichtige Ansatze dazu finden sich im 
Diagramm IV/ ll (vgl. Fishburn 1967). Fur Eva- 
luation sfragestel I un gen ist die Anwendbarkeit 
dieser Verfahren dadurch eingeschrankt, daft sie 
im Prinzip fur jeden Beteiligten (oder doch zu- 
mindest jede beteiligten Gruppe) gesondert 
durchgefuhrt werden muRten und eine Mitte- 



lungvon Nutzenwerten fur die einzelnen Krite- 
riumsauspragungen uber Personengruppen hin- 
weg dieAussagekraft stark reduzieren kann. 

Groftere Praxisrelevanz haben Verfahren, die 
die Mehrdimensionalitat des Nutzens von 
Flandlungsalternativen berucksichtigen. Auch 
wenn dort vergleichbare methodische Schwa- 
chen auftreten, liefert die Explikation der rele- 
vanten Teildimensionen an sich schon einen 
Informationsgewinn, der selbst dann fur die 
Entscheidungsfindung nutzlich ist, wenn man 
auf formalisierte Entscheidungen verzichtet. 
Ein fur die multidimensionale Nutzenmessung 
besonders wichtiger Ansatz ist die MAUT- 
Technik, die schon in verschiedenen Anwen- 
dungsbereichen von Evaluationsfragestellun- 
gen eingesetzt wurde (siehe etwa Kasubek und 
Aschenbrenner, 1978). 

DasVorgehen dieser Technik ist im folgenden 
dargestellt: 

1. Identifizierung der Personen oderOrganisa- 
tionen, deren Nutzen zu maximieren ist. 

2. Erarbeitung des Problem bereichs, das heiRt 
der Entscheidung, fur den/die die Nutzen- 
maximierung relevant ist. 



Diagramm IV/ 10 

Ubersicht uber Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967) 



Der funktionale Zusammenhang zwischen Kri- 
teriumsauspragung (k) und dem Nutzen davon 
(N (k)) kann folgende Formen aufweisen: 

• nicht-monotone: tritt auf, wenn ein mittlerer 
Kriteriumswert besonders gunstig ist, etwa bei 
dem Verhaltnis von (psychischer) Anspannung 
und Leistung (1) 

• monotone: der Nutzen steigt i. A. monoton mit 
dem Kriterium, es gibt aber Kriteriumsintervalle, 




fur die der Nutzen konstant bleibt; ein Beispiel ist 
etwa die Erledigungsgeschwindigkeit von (Tei I -) 
Arbeiten in einem Projekt, deren Erhohung nur 
dann eine Nutzensteigerung erbringt, wenn nicht 
auf andereTeilarbeiten gewartet werden muG (2) 

• streng monotone: der Nutzen steigt zwar stets mit 
steigendem Kriterium, aber nicht proportional: ty- 
pisch fur alle Grenznutzenphanomene, etwa bei 
finanziellen Anreizen durch Gehaltssteigerungen 
(3) 

• lineare: gleichbleibender, proportionaler Nutzen- 
anstieg bei steigenden Kriteriumswerten; empi- 
risch relativ selten, aber zur Vereinfachung in vie- 
len Nutzenmessungsmethoden als naherungweise 
Abbildung ohne Uberprufung angenommen (Aus- 
nahme: M AUT und EA mit expliziter Uberprufung 
der Verlaufsform der Nutzenfunktion) (4) 

• unstetige:der Funktionsverlauf verandert an ei- 
nem Grenzwert seine Struktur; typisch fur alle 
Hygienefaktoren», die zunachst mit steigender 
Auspragung auch einen hoheren Nutzen haben 
(z. B. am Arbeitsplatz), aber jenseits eines sinnvol- 
len Grenzwertes keine weitere Nutzensteigerung 
mehr erbringen (5) 
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Diagramm IV/ 11 

Ubersicht uber Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967) 



Wichtige Unterscheidungskriterien von Nutzen- 

messungsmethoden 

- Skalenniveau der Messung 

- Subjektive, teilweise subjektive Oder objektive 
Bewertungskriterien 

- Methodearbeitet mitWahrscheinlichkeitodernicht 

- Methode basiert auf Praferenzurteilen, Indifferenz- 
urteilen, direkten Gleichheits- Oder Ungleichheits- 
urteilen uber den Nutzen 

- Anzahl der Bewertungskriterien, diein ein Urteil ein- 
gehen 

- M ethode ist geeignet fur diskrete und/oder kontinu- 
ierliche Bewertungsfaktoren 



Gebrauchliche Verfahren der eindimensionalen 
Nutzenmessung 

1. Einfache Rangreihenbildung 

Ziel dieser Methode ist es, die Bewertungsalternativen 
bzgl. ihresNutzensauf jeder Bewertungsdimension in 
eine Rangreihezu bringen. Der Rangplatz der Alterna- 
tive kennzeichnet dann den Nutzenwert auf der ent- 
sprechenden Bewertungsdimension. 



2. Paarvergleich 

Beim Paarvergleich werden allein Fragestehenden Al- 
ternativen jeweilsbzgl. einesBewertungskriteriumsmit 
alien anderen Alternativen verglichen. Dabei mul? zu 
jedem Paar angegeben werden, welche Alternative be- 
vorzugt wird. 

Aus diesem Vergleich ergibt sich die Bevorzugungs- 
wahrscheinlichkeit jeder Alternative auf jeder Bewer- 
tungsdimension. 

Von den Bevorzugungswahrscheinlichkeiten kann wie- 
derum auf die «Beliebtheit» jeder Alternative geschlos- 
sen werden, dieden AusgangspunktfurdieZuordnung 
von Nutzenwerten darstel It. 

3. Gewichtete Rangreihe 

Bei dieser Methode mussen die Alternativen furjedes 
Bewertungskriterium getrennt in eine Rangreihe ge- 
bracht werden. Danach erfolgt dieGewichtung der Al- 
ternativen, wobei die schlechteste Alternative einen 
festen Wert (z.B. 10 Punkte) zugeordnet bekommt. Alle 
anderen Alternativen mussen nun hierzu und unter- 
einander bzgl. ihrer Nutzlichkeit auf dem Bewertungs- 
kriterium insVerhaltnisgebracht werden. 



3. Identifizierung der Alternativen, die in die 
Bewertung eingehen sollen. 

4. Zusammentragen der relevanten Bewer- 
tungskriterien, anhand derer die Alterna- 
tiven bewertet werden sollen. 

5. Einordnung der relevanten Bewertungs- 
kriterien in eineZielhierarchie. 

6. Gewichtung der Bewertungskriterien 

7. Erstellung von Nutzenfunktionen fur jedes 
ei n zel n e Bewertu n gskri teri u m . 

8. Feststellung des Auspragungsgrad jeder zu 
bewertenden Alternative auf jeder Bewer- 
tungsdimension (gleicher Skalenbereich fur 
alle Kriterien wichtigi). 

9. Bestimmung des Gesamtnutzens jeder zu be- 
wertenden Alternative nach folgenderFormel: 

u : (A) =Summe (w i ■ u ; (x..)) 

wobei u (A) = Gesamtnutzen 

der Alternative Aj 
u (A ) = Tei I nutzen von xij 
x.. = Auspragung der Alter- 

native A auf dem i-ten 
w : = Gewicht des i-ten 

Kriteriums 



(Vorh er mussen al I e Werte n orm i ert werden .) 

10. Entscheidung: Wahl derjenigen Alternative 
mitdem hochsten Nutzlichkeitswert u r 

Fur eine ausfuhrliche Darstellung der multi- 
attributiven Nutzentechnik vgl. von Winterfeld 
(1974), Kaplan und Schwartz (1973), Wendt 
und Vlek (1975). 

Unabhangig von Verfahrensdetails sollte 
man sich als Evaluator stets bewuGt sein, daG 
auch numerisch erhaltene «Nutzenwerte» 
nichtsan dem Faktum andern konnen, daB sie 
letztlich subjektive Setzungen sind. Das Ergeb- 
nisentsprechender Auswertungen iststrengge- 
nommen nicht ein wissenschaftlich erfaiSter 
Nutzenwert, sondern die Aussage «Die Perso- 
nen haben subjektiv folgenden Nutzen einge- 
schatzt» Oder «Das Wahlverhalten der Personen 
laBt sich durch Zugrundelegung folgender 
Nutzen struktur besch rei ben ». Nutzen aspekte 
bleiben stets eine Sache der Setzung durch In- 
dividuen, deren Subjektivitat auch nicht durch 
noch so elaborierte und objektive Erhebungs- 
methoden beseitigt werden kann. 
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Nutzenverrechnung 

Die Zusammenfassung der Teilnutzen-Werte 
auf den Bewertungskriterien erfolgt im einfach- 
sten Fall in linearer Form. Dieeinzelnen Krite- 
rien erhalten je nach ihrer (subjektiven) Bedeu- 
tung ein Gewicht zugeschrieben, und der 
G esamtn utzen ei n es Eval uati on sobj ektes ergi bt 
sich aus der damit gewichteten Summe der 
N utzen werte dieses Obj ektes in den einzelnen 
Kriterien. Dieses Vorgehen wird zum Beispiel 
bei MAUT gewahlt, wo auch diese Art der Zu- 
sammenfassung formal dargestel It wurde (s. o.). 

Eineso einfache Verrechnungsform ist aber 
nicht immer sinnvoll. Sie impliziert zum Bei- 
spiel, dalS ein Evaluationsobjekt mit durch- 
schnittlichen N utzen werten auf den Bewer- 
tungskriterien den selben rechnerischen 
Gesamtnutzen haben kann wie ein anderes, 
da(5 auf einigen Kriterien sehr hohe, auf ande- 
ren ganz geringe N utzen werte erbrachte. Sind 
nun die einzelnen Kriterien fur verschiedene 
«Betroffene» unterschiedlich bedeutsam, ware 
eine solche «Gleichheit» rechnerischer Art in- 
haltlich nicht sinnvoll. Flinzu kommt, daft die 
Bildung von gewichteten Summen fur die 
N utzen werte di e Messung auf dem Niveau von 
mindestens Interval I skalen bedingt, was oft 
nicht sinnvoll angenommen werden kann. 

Unterstellt man vorsich tig-real istisch, daft die 
N utzen messung von Ausnahmefallen abgese- 
hen nurauf Rangskalen erfolgen kann und ins- 
besondereeineGewichtung der einzelnen Teil- 
aspekte uber Personen bzw. Person engruppen 
hinweg unterschiedlich sein konnen, so ist auf 
der Basis einer formalen Nutzenverrechnung 
oftnurein «screening» (damit meint man eine 
moglichst einfache Vorauswahl letztlich nicht 
relevanter Alternativen) der Eval uati on sobj ekte 
moglich. Man kann sich dazu desGedankens 
des Bildens der «pareto-optimalen Teilmenge» 
bedienen, das Prinzip ist anhand von nur 2 
Nutzendimensionen im Diagramm iv/ 12 darge- 
stellt. Eine andere Moglichkeit sind Multiple- 
C ut-Off-Strategi en . 



Bilden von pareto-optimalen Teilmengen 

Die Idee dabei ist, daft eine Alternative unab- 
hangig von der speziellen Gewichtung Oder 
Verrechnung immer dann einer anderen unter- 



legen ist, wenn sie gleichzeitig in alien 
Bewertungskriterien niedrigere N utzen werte 
hat. So ist etwa im Diagramm iv/ 12 dasObjekt A 
in beiden Kriterien dem Objekt U unterlegen; 
unabhangig davon, wie man diese Kriterien ge- 
wichtet, wurdeimmerfur A daherein niedrige- 
rer Gesamtnutzen als fur U folgen, so daft A 
innerhalb der dort dargestellten Vergleichsob- 
j ekte niemals das beste sein kann. Ausgleichen 
Uberlegungen scheiden B, C und D aus. Fur die 
verbl ei ben d en O bj ekte i st kei n e wei tere Sel ekti - 
on nach diesem Prinzip moglich. Z hat zwar 
den hochsten Wert auf dem 1. Kriterium, ist 
aber den anderen im 2. Kriterium unterlegen, 
ahnliches gilt fur U, X und Y. 

Die Bildung der pareto-optimalen Tei Imenge ist 
vor allem dann nutzlich, wenn viele«Objekte» 
zu evaluieren sind und klare Verrechnungs- 
regeln fehlen (gut anwendbarzum Beispiel bei 
Personalentscheidungen, Verpackungs- Oder 
Textvarianten in der Werbung, Anbieter von 
Weiterbildungsseminaren). Das Vorgehen lie- 
fert i.A. keine endgultige Entscheidung, son- 
dern nur eine Vorsel ekti on der Obj ekte, diezu 
recht in die engste Wahl kommen. 



Anwendung multi pier cut-off-Strategien: 

Auch wenn eine klare Zusammenfassung der 
einzelnen Nutzendimensionen fehlt, kann man 
haufig plausibel machen, daft auf den einzel- 
nen Tei In utzen aspekten jeweils gewisse Min- 
destwerte uberschritten werden mussen (dies 
hat auch den Vorteil, daft man mit Ordinal- 
skalen bei der Nutzenmessung auskommt). Ein 
Beispiel dafur ware etwa die Auswahl beson de- 
res guter Seminaranbieter fur Weiterbildungs- 
programme (es kommen nur solche in Frage, 
diefurdieeinzelnen Teildimensionen wieLern- 
erfolg, Seminarklima Oder Ubertragbarkeit der 
Inhalte Mindestwerte uberschritten haben), 
therapeutische Ei ngriffe (nur solche, die etwa 
hinsichtlich unerwunschte Nebenwirkungen 
Hochstgrenzen nicht uberschreiten) Oder die 
Optimierung von Textgestaltungen (jeweils 
M indest- bzw. Flochstwerte in Lange, Verstand- 
lichkeit, emotionale Anmutung und dgl .). Die 
gleiche Denkweise ist auch typisch fur die Aus- 
wahl von Personen auf der Basis von Ei nzelfal I- 
bewertungen, etwa in der Eignungsdiagnostik, 



Zielexplikation und Bewertungskriterien 107 



der Potentialabschatzung Oder bei Plazierungs- 
aufgaben. Man spricht dortgernevon «Screen- 
ing-Verfahren». Eine solche formale Vorselek- 
tion erleichtert auch bei Fehlen expliziter 
Regeln der Nutzenverrechnung dasweitereVor- 
gehen, da die Zahl der noch zu berucksichti- 
genden Objektereduziertwurde. Zwischen den 
verbleibenden Alternativen muR anschlieRend 
mi t wen iger formal isierten Verfahren entschie- 
den werden. Eine Moglichkeit ist die Konsens- 
findung unter Betroffenen (vgl. 4.3.3), einean- 
dereder Einsatz von «Experten». 



4.3.2 Expertengestiitzte 
Entscheidungsfindung 

Am einfachsten ist die Zusammenfassung un- 
terschiedlicher Aspekte durch eine personliche 
Einzelentscheidung (typisch in Teilen von 
Managementfunktionen, aber eher mit abneh- 
menderTendenz) Oder derVersuch, auf der Ba- 
sis der empirischen Ergebnisseeinen Gruppen- 
konsens herbeizufuhren. Bei nicht besonders 
konfliktreichen Situationen genugtesoft, wenn 
es gelingt, die fur die jeweilige Entscheidung 
zustandige Oder davon unmittelbar betroffene 
Gruppevon Personen zusammenzufuhren und 
unter sachgerechter, konsensfordernder Moti- 
vation diskutieren zu lassen (fur Moderations- 



techniken vgl. Klebert et al. 1988). Typische 
Beispiele dafur sind etwa Projektgruppen in 
Wirtschaft Oder Verwaltung, Lehrerkonferen- 
zen, Sitzungen von Therapeuten teams. Fur 
kompliziertere, spezielle Kermtnisseerfordernde 
Problem I agen istesabersinnvoll, zusatzlich das 
Wissen von Spezialisten (zum Beispiel Evalua- 
toren) zusatzlich einzubeziehen. 

In der Praxis finden sich fur die Beteiligung 
von Experten an der Entscheidungsfindung viele 
institutionalisierte Vorgehensweisen, etwa 
Enquette-Kommissionen, Anhorungen Oder Be- 
gutachtungen. Solche Methoden sind solange 
weitgehend unproblematisch, als es um das 
Darstellen von (wissenschaftlich) unumstritte- 
nen Fakten geht. Setzen subjektive Bewertun- 
gen mit ein Oder sind die «Fakten» insbeson- 
dere im H i nbl ick auf ihre Bedeutung und 
Verursachung nicht so eindeutig beschreibbar 
(im sozialwissenschaftlichen Bereich gilt dies 
fast immer), bieten solcheAnhorungen manch- 
mal ein das Ansehen der Wissenschaft nicht 
geradeforderndes Bild. 

Zur Vermeidung solcher M iRstande ist esan- 
gezeigt, anstatt offentlicher «Schaukampfe» 
zumindestfur politisch -emotional sehr umstrit- 
teneEvaluationsfragestellungen Techniken ein- 
zusetzen, die Rollenverhalten einschranken 
und konsensbildend wirken. Einige Beispiele 
(etwa Meta-Plan) wurden bereitsin den vorher- 



Diagramm IV/ 12 

Prinzip der Pareto-optimalen Teilmenge 



Grundlagen 

Liegt mehralsein Bewertungskriterium vor, stellt sich 
die Frage nach der Zusammenfassung der jeweiligen 
Nutzenwerte zu einer Auswahlentscheidung. Unab- 
hangig von einer speziellen Gewichtung Oder einer 
anderen Verrechnungsvorschrift kann aber jede Alter- 
native von vorneherein ausgeschlossen werden, die 
gleichzeitig auf alien Nutzen-Teildimensionen von ei- 
ner anderen Alternative ubertroffen wird. 




Skizze des Entscheidungsverlaufes bei zwei 
Nutzendimensionen 

Die Alternative A ist auf beiden Dimensionen kleiner 
als U und wird ausgeschlossen, B und C werden von X 
ubertroffen, D von Y. Die ubrigen (U, X, Y, Z) konnen 
nicht ausgeschlossen werden; zwar wird z.B. Y von Z 
aufderersten Nutzendimension ubertroffen, hat aber 
auf der zweiten einen etwas hoheren Wert, sodal? Y 
und U (z.B. bei wesentlich starkerer Gewichtung der 
zweiten gegenuber der ersten Dimension) in der 
Gesamtbewertung doch uberZIiegen konnte. 

Die verbleibende Alternativenmenge wird «pareto- 
optimal» genannt. 
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gehenden Abschnitten besprochen. FurdieAr- 
beit mit Experten besonders bewahrt hat sich 
die sogenannte «Delphi-Methode», die in Dia- 
gramm IV/ 13 dargestellt ist (vgl. Linstone & 
Turoff, 1975; Bortz, 1984). Dieanonyme Ruck- 
meldung uber die Angaben der Experten kol I e- 
gen vermeidet gruppendynamische Effekte, es 
fallt leichter, die von anderen vorgebrachten 
ArgumenteohneEmotionen zu prufen und seine 
ursprungliche Aussage als Ergebnis solcher zu- 
satzlicher Uberlegungen ohne Gesichtsver- 
I ust zu verandern. Leider ist dieses Verfahren 
von den Kosten her aufwendig, und es wider- 
spricht auch dem Selbstverstandnis vieler Wis- 
senschaftler - wer gibt schon gerne zu, daR er 
auch in er RollealsSachverstandigerzu einigen 
Themen dazu neigt Oder doch zumindest nei- 
gen konnte, auch sachfremde Einflusse wie 
Emotionen in seineAussagen einflieRen zu las- 
sen? 

Aussolchen Grunden wird die Delphi i-Tech- 
nik (bisher) fur Evaluationsfragen leider nur sel- 



ten angewandt; ein Beispiel im Zusammenhang 
mit der Curriculumsentwicklung gibt HauRler 
etal., 1980. 



4.3.3. Entscheidungsfindung 
durch Betroffene 

Eigentlich sind die Betroffenen (aus wissen- 
schaftlicher Sicht meist Laien) jeneGruppe, die 
am ehesten befugt ware, bei Evaluations- 
fragestellungen eine Entscheidung zu treffen. 
Das Problem dabei ist, daR eine begrundete 
Auswahl Oder Gestaltungsvorschlagedoch eine 
rel ati v wei tgeh ende Sach ken ntn i sse der G ru nd- 
lagen und Nebenfolgen voraussetzen , uber die 
auch ein i ntel I igenter und in der Sacheenga- 
gierter «Laie» im allgemeinen nicht verfugt. 
Dazu kommt noch, daR Betroffene naturlich 
sehr dazu neigen, ihre personlichen Nutzen- 
aspekte besonders hoch zu veranschlagen und 
evtl. sogar massive Nachteilefur andere weni- 



Diagramm IV/ 13 

Ubersicht fiber die Grundlagen der DELPHI-Technik (nach Bortz, 1984) 



Definition 

Bei der DELPHI-Methode handelt es sich umeinespe- 
zielle Form der schriftlichen Befragung, mittels derer 
ein Kreis von Experten zu einem ausgewahlten Pro- 
blembereich in einem mehrstufigen ProzeG individuell 
befragt wird, sodaG gruppendynamische Effekte ausge- 
schaltet werden konnen. Ein Leitungsgremium uber- 
nimmt dabei eine Koordinationsfunktion, indem es 
einen Katalog von Ausgangsfragen und Zielen entwik- 
kelt, dieAntworten der Experten auswertet, sowie ei- 
nen standig verbesserten Fragenkatalog ausarbeitet. 

Ziele 

• Gewinnungvon neuen Ideen durch Experten 

• Annaherung der Standpunkte durch standige Ruck- 
meldung, sodaG ein ubereinstimmender Losungs- 
vorschlag fur das behandelte Problem entwickelt 
werden kann. 

Ablauf der DELPHI-Technik 

• Das Leitungsgremium erarbeitet fur die anstehende 
Problematik einen speziellen Fragebogen 

• Ein ausgewahltes Expertenteam wird mit Hilfe des 
vorbereiteten Fragebogens um seine Meinung gebe- 
ten. Die schriftliche Befragung findet individuell 
und anonym statt. 



• Die Ergebnisse der Umfrage werden durch das 
Leitungsteam ausgewertet (qualitativ und quantita- 
tiv) 

• Auf der Basis der Resultate dieser ersten Befragung 
wird durch das Leitungsgremium ein neuer Fragen- 
katalog entworfen. 

• In einerzweiten Befragungsrunde erhalten die ein- 
zelnen Experten den neuen Fragebogen zusammen 
mit den Ergebnissen der ersten Umfrage sowie zu- 
satzliche Informationen uber die Standpunkte und 
Losungsbeitrage der anderen Experten. Die Exper- 
ten werden dabei um eine Kommentierung ihrer 
Antwort im Vergleich zu den Gruppenergebnissen 
gebeten, wobei eine gewisse Angleichung der An- 
sichten erwartet wird. 

• Weitere Auswertungen und Umfragen (meistens 
werden drei bis funf Wiederholungsrunden nach 
dem obi gen Ablaufschema durchlaufen). Dabei wer- 
den extreme Mein ungen eliminiert und dasSchwer- 
gewicht auf strittige Punkte gelegt. 

• Liegt eine Ideensammlung von groGerer Aussage- 
fahigkeit vor, erarbeitet das Leitungsgremium 
schlieGlich einen umfassenden Losungsvorschlagfur 
das relevante Problem. 
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ger gravierend zu gewichten. Mochteman diese 
Storungen ausschalten, ist ein intensiver per- 
son I icher Kontakt zwischen verschiedenen 
Betroffenen mit unterschied lichen Interessen, 
eine sorgfaltige Information dieser «Entschei- 
der» sowie eine konsensfordernde Diskussions- 
gestaltung erforderlich. Wichtig ist auch eine 
wirklich representative Auswah I der «Entschei- 
der» aus der Gesamtheit der Betroffenen, da 
sonstdurch Selbstselektion oderVerbands- bzw. 
Parteiennominierung ein stark verzerrtes Bild 
uber die tatsachlich vorhandenen Interessen, 
noch verstarkt durch die bei den Experten ge- 
nannten Rollenzwangen, entstehen kann. 

Ein fur die Losung dieser Problemehervorra- 
gend geeigneter Ansatz ist die Planungszelle 
(Dienel, 1978), die im Diagramm IV/ 14 skizziert 
ist. Die dort getroffenen Maftnahmen schlie- 
Ben den empirischen Erfahrungen zufolge 
nahezu alle klassischen Storeffekte einer Ent- 
scheidungsbildung durch Laien aus, kompetente 
Durchfuhrung der einzelnen Teilschritte vor- 
ausgesetzt. Das Verfahren ist besonders dann 
angemessen, wenn die «wissenschaftlichen» 
Grundlagen furdieEntscheidungentweder we- 
nig wichtig Oder leicht verstandlich sind. Dies 
durfte der Grund sein, warum diese Methode 
vorwiegend fur antizipatorische Evaluation von 
Stadtplanungsmaftnahmen (siehedazu Dienel, 
1978) eingesetzt wurde. Bei entsprechender 



Modifikation ware das Verfahren sicher auch 
sehr gut geeignet, in anderen Bereichen eine 
wirkliche Beteiligung der Betroffenen an der 
(politischen) Entscheidungsfindung zu ermog- 
lichen, deren Qualitat weit uber die in man- 
chen Bereichen gesetzlich vorgesehenen «An- 
horungen» hinausgeht. 

Leider muG man feststellen, daB die Planungs- 
zelle in jungster Zeit nur selten angewandt zu 
werden scheint, was nur zum Teil durch die 
nicht unerheblichen Kosten zu erklaren ist. 
Man muB im Bereich der Evaluation damit le- 
ben, da(5 die Berechtigung zum Treffen von Ent- 
scheidungen mit sehr vielen zusatzlichen, fur 
die Motivierung von Menschen wichtigen, 
Nebenaspekten verbunden ist und sich daher 
kaum jemand subjektiv als bedeutend einge- 
schatzte Entscheidungen von anderen abneh- 
men laGt. Die Delegation relevanter Entschei- 
dungen etwa von politischen Mandatstragern 
auf informierte «Betroffene» durfte vor diesem 
Hintergrund nicht als Entlastung, sondern als 
ein Verlust von Macht und EinfluB gesehen 
werden. Wozu braucht man eigentlich noch 
politische Parteien und deren Mandate, wenn 
in wichtigen Angelegenheiten ohneoder sogar 
gegen sieentschieden wird? Da es fur politische 
Entscheidungen sehr unglucklich ware, zuerst 
eine Planungszelle einzufuhren und spater als 



Diagramm IV/ 14 

Ubersicht uber die Grundlagen der Planungszelle (nach Dienel, 1978) 



Prinzip 

Das Prinzip der Planungszelle liegt in der Zusammen- 
fassung einer groEeren Anzahl von Betroffenen in 
mehreren Kleingruppen. Diese erhalten sorgfaltige und 
umfassenden Informationen durch Fachexperten. In 
einer Diskussion der Informationen in der Kleingruppe 
werden abschlieEend eine Bewertung des Problems 
bzw. eineBeschluBfassungfestgelegt. 

Definition «Planungszelle»(nach Dienel, 1978, S. 74) 

... ist eine Gruppe von Burgern, die nach einem Zu- 
fallsverfahren ausgewahlt und fur begrenzte Zeit von 
ihren arbeitstaglichen Verpflichtungen vergutet freige- 
stellt worden sind, um, assistiert von ProzeBbegleitern, 
Losungen fur vorgegebene, losbare Planungsprobleme 
zu erarbeiten. 



Merkmale des Modells: 

• UnerlaBlichekonstruktiveMerkmale 

• Gruppenentscheid 

• Akzeptable Rollenzuordnung fur alleTeilnehmer 

• Freistellung derTeilnehmer von Arbeits-und 
Familienverpflichtungen 

• VerguteteTeilnahme 

• BefristeteTeilnahme 

• Teilnehmerzufallsauswahl 

• Laienteilnehmer 

• Fachliche Begleitung 

• Vorgegebenen Aufgabenstellung 

• Freizugigkeit des Einsatzes 

• Simultananwendbarkeit durch andereGruppen 

• Variable Merkmale 

• Teilnehmerzahl (meistens25 Personen) 

• Dauer (meistensdrei Wochen) 

• Programmdichte (=EinfluBmoglichkeit auf den 
Programmablauf) 
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rechtlich verantwortliches (politisches) Gremi- 
um eine gegenteilige Entscheidung zu treffen 
(man denken nur an die Darstellung einessol- 
chen Vorgehensin den Massenmedien!), bedeu- 
tet die Einschaltung einer Planungszelle prak- 
tisch die Entscheidungsdelegation und damit 
eine sowohl subjektiv erlebte als auch objektiv 
gegebene«Entmachtung» in dieserTeilfrage. 

4.3.4 Grenzen objektiver 
Nutzenbewertung 

Verfahren zur Nutzenmessung und Hilfen bei 
der Entscheidungsfindung konnen wesentlich 
zu rationalen, auch konsensfahigen Entschei- 
dungen auf der Basis von Evaluationsprojekten 
beitragen. Man darf aber nicht erwarten, daft 
solche «objektiven» Techniken stets anwend- 
bar bzw. an sich akzeptabel sind. Manche Hin- 
derungsgrunde sind bedauerlich und nicht 
prinzipiell (Innovationsscheu, Angst vor Reduk- 
tion des personlichen Einflusses etc.), einige 
aber auch sachlich gerechtfertigt: 

• Die Setzung von Zielen «wie die Welt sein 
soll»istkeineempirischeFrage, sondern eine 
subjektive Entscheidung; es ist daher durch- 
aus legitim, sich fur die Erreichung einesZie- 
les auch bei (zunachst?) widersprechenden 
Evaluationsergebnissen politisch bzw. argu- 
mentativ einzusetzen. 

• Oft sind die Entscheider eingebettet in ein 
Netzwerk von Einflussen, und die von ih- 
nen ausgewahlte Alternative wirkt auf- 
grund der Reaktion der Betroffenen auf die 
Situation der Entscheider zuruck. Dies ist 
typisch fur politische MaGnahmen (Ge- 
setzesvorhaben, Gestaltung von Schulsy- 
stemen, OrganisationsmaGnahmen der 
Verwaltung) Oder die Arbeit besonders be- 
deutsamer Organisationen (Parteien, Ge- 
werkschaften, Krankenkassen u.a.), in klei- 
nerem Umfang auch in privaten Vereinen 
wie etwa Berufsverbanden. In solchen Si- 
tuationen bleibt die Bewertung von Al- 
ternativen (insbesondere bei prospektiver 



Evaluation) meisteinem umfassenden Dis- 
kussionsprozeft vorbehalten, den man als 
«freies Spiel der Argumente» charakterisie- 
ren konnte. In solchen Fallen ist die Ge- 
fahr, daft der Evaluator zum Anwalt einer 
bestimmten Richtung wird, besonders 
hoch (vgl. Abschnitt 2.1.1). 

• Viele Entscheider wurden vermutlich vollig 
demotiviert, wenn sie alle Oder doch die 
wichtigsten beruflichen Entscheidungen auf 
einer rein rationalen, berechenbaren (und 
damit letztlich auch automatisierbaren) Ba- 
sis treffen sollten. Die vbllige Reduktion auf 
solche formal i si erten Verfahren wurde kei- 
nen Raum mehr fur person I i ch e Vorlieben, 
Freudeam auch in Grenzen «willkurlichen» 
Gestalten und kreativen, den formal-rationa- 
len Rahmen ubersteigendeldeen lassen. Ver- 
mutlich waren vielegesellschaftlicheVeran- 
derungen nie erfolgt, wenn man ihre 
Uberlegenheit gegenuber althergebrachten 
Verfahrensweisen auf der Basis empirisch er- 
hobener und explizit verrechneter Nutzen- 
wertehattebegrunden mussen. 

Diese Argumente sollten aber nicht alsAbwer- 
tung einer sorgfaltigen Nutzenerhebung ver- 
standen werden. Auch heute noch durfte es 
eher einen Mangel als ein ubertriebenes Aus- 
malS rationaler Entscheidungen geben, selbst 
bei der Verwendung von empirischen Evalua- 
tionsergebnissen. 

Es kommt immer wieder vor, daR sich der 
Evaluator uber sachfremde Ei nfl usse auf die 
Projektdurchfuhrung und Ergebnisverwertung 
argert, Ian gfristig (vom Mittelalter bis heute) ist 
aber eine evaluationsfreundliche Veranderung 
derGesellschaft unverkennbar. Auch mulS man 
damit rechnen, in diesem Berufsfeld immer 
wieder Entscheidungstragern mitoffensichtlich 
feudalstaatlich gepragten Denkstrukturen zu 
begegnen (und dies keineswegs nur in Politik 
und Verwaltung), doch kann gerade die Ex- 
plikation der Zielsetzung und der Bewertungs- 
kriterien wesentlich dazu beitragen, den 
Wirksamkeitsbereich solcher gesellschaftlicher 
Fossilien allmahlich einzuschranken. 
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Ubersicht Kapitel 4: 

Zielexplikation und Bewertungskriterien 


4.1 

Zielexplikationen 

Moglichkeiten 






Strikte Vorgaben der Zielsetzung 
durch den Auftraggeber 


Vorliegen einer gewissen Zielset- 
zung durch den Auftraggeber. 
Evaluator mul$ dieseaber 
konkretisieren und verbessern 


Auftraggeber hatnureinesehr 
vage Vorstellung von den Zielen 
der Evaluation. Evaluation mul? 
intensive Zielexplikation betreiben 


Regel fall 

Problem: Zielexplikation bei Vorliegen von Konflikten innerhalb desAuftrages 


Zielgruppenbestimmung 

• Bestimmung der von der 
Evaluation betroffenen 
Zielgruppe 

• Hilfsmittel: 

Kreati vi tatstech n i ken 


Konkretisierung des Evaluations- 
projekts 

• Erarbeitung von relevanten 
Auspragungsgraden des 
Evaluationsprojektes 

• Hilfsmittel: 

Situationsanalyse 

Gruppendiskussion 

Brain-Storming 


Antizipatorische Ergebniswertung 

• Probleme bei Evaluationsvor- 
haben 

• Veranderung der Rahmenbedin- 
gungen 

• N ach tragi i ch e, ergebn i s- 
abhangigeVerschiebung 

• Abhilfe durch Antizipation der 
Verwertungssituation 
Hilfsmittel: Szenario-Technik 
Planspiel 


4.2 

BewertungsprozeG 






Bewertungskriterien 
Auf st el 1 un g ei n er Zi el h i erarch i e 
und Auswahl der passenden 
Bewert u n gsd i m en si o n en 
• Hilfstechniken: 
Brain-Storming 
Metaplan-Tech niken 


N ebenfolgenabschatzung 
Abschatzung der Nebenfolgen 
durch Untersuchung der Zielgrup- 
pen, ob Mal$nahmen Konse- 
quenzen fur die Handlungsplane 
der Zielgruppen haben konnte 
• Hilfsmittel: 

Metaplan-Tech niken 
vert rauliche Interviews 


0 perati ona 1 i si erun gsf ra gen 
Operationalisierung der Bewertungs- 
kriterien 

Inhaltlicheund methodische 
Probleme 


4.3 

Bewertungs- und Entscheidungshilfen 
Verfahren der Nutzenbestimmung 




• eindimensional: 
funktionale Verknupfung 
Kriteri ums-/N utzen wert 


Teilschritteder Nutzenbestimmung 

Zusammenfassung der N utzen werte 
zu r N utzen verrech n u n g 

• Linearkombinationen 

• pareto-optimaleTeilmenge 

• multiplecut-off-Strategien 


• mehrdimensional: 
z.B. MAUT 


Entscheidungsfindung durch 

Expert en 

Hilfstechniken: 

• Delphi-Methode 

• Meta-Plan 


Entscheidungsfindung durch 

Betroffene 

Hilfstechniken: 

• Planungszelle 

• Moderation 


Grenzen objektiver N utzen - 
bewertung 

• Zielsetzung subjektiv 

• vernetzte Einflusse 

• Freiraum fur Entscheider 
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5. Planung von Evaluationsprojekten 



Wie schon im 1. Kapitel dargestellt, ist das 
Berufsfeld Evaluation so heterogen, daft eindeu- 
t i ge «Vorsch ri ften » f u r d i e PI an u n g so I ch er Vor- 
haben nicht zu erstellen sind. Hinzu kommt 
noch, dalS die Planung von Projekten naturge- 
malS eineGestaltungsaufgabeist, fiirdieesauch 
im konkreten Einzelfall viele verschiedene 
durchaus gute «Losungen» gibt. 

Um wenigstens einen ersten Einblick in die 
Planungsarbeit geben zu konnen, wird in den 
folgenden Abschnitten von einem typischen 
Fall, namlich der Reaktion auf eine Projektaus- 
schreibung, ausgegangen. Die Projektarbeit 
beginnt dann mit der Angebotserstellung, wo- 
bei vor alien Fragen des Projektmanagements 
(5.1.) wich tig sind. Kommt ein Auftrag zustande, 
beginnt die eigentliche, intensive Vorbereitung 
(Design -Fragen, Abschnitt 5.2.) und darauf auf- 
bauend die Vorbereitung der Auswertung (5.3). 

Auf andereAuftragsverhaltnissebei der Evalua- 
tion, etwa 

• Einholen eineseinzigen Angebotsbei einem 
besonders vertrauten Oder als besonders 
kompetent geltenden Experten, 

• Finanzierung des Vorhabens aus Stiftungs- 
oderanderen Fdrderungsmitteln, 

• Planung einer Evaluation mit aussch I ieBI ich 
«hausinternen Mitteln», iiber die evtl. der 
Evaluator selbst im Rah men seiner beruf li- 
chen Zustandigkeit ohne finanzielles Risiko 
verfugen kann, 

• Durchfuhrung des Vorhabens im Rahmen ei- 
ner Diplomarbeit, o.a. 

• Selbstevaluation 

sind einigeder in den folgenden Abschnitten 
dargestellten Ausfuhrungen nicht anwendbar. 



DafurdieseArten von Evaluation aberamehe- 
sten Flinweise in der vorhandenen Literatur 
verfugbar sind (siehe dazu etwa Prell, 1984; 
Flellstern und Wollmann, 1984), wird im fol- 
genden von einem kommerziell orientierten 
Evaluationsvorhaben ausgegangen. 

Das folgende Kapitel ist nach dem zeitlichen 
Ablauf der Arbeit an einem Evaluationsprojekt 
gegliedert, die Flauptpunkte dabei sind in Dia- 
gramm v/ 1 zusammengefalSt. 



Diagramm V/ 1 

Besonders wichtige Punkte bei der Planung 
von Evaluationsprojekten 



Beginn der Projektarbeit 

I 

Angebotserstellung 



Projektmanagement — * 



Designfrage 

1 



(Vorbereitung der) 
Auswertung 



• Informationsbeschaffung 

• Entwicklung einesvor- 
laufigen Arbeitsplans 

• Zeit- und Kosten- 
schatzung 

• Identifizierungu. Uber- 
priifung potentieller Stor- 
und Fehlerquellen 

• Entwicklung einesUnter- 
suchungsplanes 

• Auswahl und Applikation 
speifischer Datenerhe- 
bungsverfahren 

• Entscheidungfurbe- 
stimmteMaEean 
Effektstarke 

• Wahl einesspezifischen 
Aus/vertun gsverfah ren s 
(z.B. lineareModellan- 
satzevs. qualitativer 
Aus/vertun gstech n i ken ) 
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5.1 Projektmanagement 

Die fur die Projektorganisation entscheidende 
Phase ist die Planung, die auch die Grundlage 
jeder profession el I en Angebotserstellung ist. 
Gelingtes, diese vorbereitenden Arbeiten sach- 
gerecht durchzufuhren, kann sich das spatere 
Projektmanagement im wesentlichen auf die 
Kontrolle der Einhaltung des Planes beziehen, 
was gegenuber ad-hoc-Losungen fur nicht 
rechtzeitig uberlegte Probleme sehr entlastet 
und dieQualitat der Projektarbeit fordert. 

In diesem Abschnitt kann nur ein erster Ein- 
blick in technische Hilfen fur die Planung und 
Abwicklung von Evaluationsprojekten gegeben 
werden. Meist beginnen die Probleme schon 
mit unzurei chen den Informationen fur ein 
auch nurannahernd aussagekraftigesAngebot. 

Fur Evaluationsvorhaben (und ahnliche Fra- 
gestellungen auf der Basis sozialwissen schaftli- 
cher Kenntnisse) sind Ausschreibungen mei- 
stens nur bedingt informativ. Man kann in 
einer fur die Angebotserstellung halbwegs aus- 
reichenden Weise ein Bauprojekt, die Erledi- 
gung von EDV-Arbeiten Oder den Ankauf einer 
bestimmten Menge einer Ware mit vorgegebe- 
nen Qualitatsstandards ausschreiben, die Pla- 
nung eines Evaluationsprojektessetzt aber eine 
wesentlich intensivere Kenntnis der speziellen 
Rahmenbedingungen voraus. Haufig ist dieses 
Faktum, und insbesonderediegenaueAusdiffe- 
renzierung der notwendigen Vorinformatio- 
nen, dem potentiellen Auftraggeber gar nicht 
bekannt - wenn im eigenen Flause erfahrene 
Evaluatoren waren, ware ja vermutlich eine 
Ausschreibung fur externe Auftragnehmer 
nicht erforderlich. Flinzu kommt, daR eszwar 
zur Allgemeinbildung gehort, Grundkenntnisse 
in naturwissenschaftlichen Oder technischen 
Bereichen zu haben, im allgemeinbildenden 
Schulwesen aber ebenso wieinnerhalb der mei- 
sten universitaren Studiengangekaum sachlich 
zutreffende Darstellungen uber psycho I ogische 
Oder sozialwissenschaftliche Inhalte zu finden 
sind. Die Einholung der erforderlichen Infor- 
mationen stoRt daher von Seiten der potentiel- 
len Auftraggeber manchmal auf Unverstandnis 
(siehe 5.1.1). Nach Losung dieser Probleme 
kann ein vorlaufiger Arbeitsplan erstellt wer- 
den, dessen moglichst ubersichtliche und 
gleichzeitig «werbende» Darstellung den we- 



sentlichen Inhalt des (meist schriftlichen) An- 
gebotes bildet (5.1.2). Auf der Basis dieser vor- 
laufigen Planung wird ein Zeit- und Kostenplan 
erstellt, bei dem man prinzipiell voreinem Di- 
lemma steht: 

• veranschlagt man den Aufwand zu niedrig, 
konnen erhebliche finanzielle Belastungen 
des Institutes die Folge sein, auch die Quali- 
tat der Arbeitsausfuhrung leidet darunter er- 
heblich 

• kalkuliert man zu groRzugig, kann der uber- 
zogen Betrag die Ursache sein, den Zuschlag 
nicht zu erhalten, mit alien Konsequenzen 
daraus (zum Beispiel Kundigung von ohne 
weitere Projekte nicht langer finanzierbaren 
M itarbeitern) 

Diese Entscheidung wird oft weniger auf der 
Basissolider Fachkenntnissegetroffen, sondern 
bleibt derZustandigkeitdesjeweiligen Instituts- 
leiters vorbehalten, der aufgrund seiner Stel- 
lung letztlich die Entscheidung zu verantwor- 
ten hat. Von der Fachseite kann nur eine 
Kalkulation der erforderlichen Mindestauf- 
wendungen geleistet werden (vgl. Abschnitt 
5.1.3). 



5.1.1 Informationen zu Projekt- 
details und Rahmenbedingungen 

Es empfiehlt sich, zunachst eine Liste von 
Aspekten anzufertigen, die man vor der kon- 
kreten Projektarbeit gerne gekl art hatte. Im Dia- 
gramm v / 2 sind einige Bereiche genannt, die 
man zum Beispiel in einem Vorgesprach uber 
eine Evaluation einer laufenden Werbekampa- 
gne klaren sol Ite (nur eine Auswahl aus alien 
vermutlich wichtigen!). Man muG allerdings 
davon ausgehen, daR aufgrund der ersten, rela- 
tiv vagen Vorkenntnisse zunachst relevante 
Pu n kte u berseh en werden . 

Ein Teil der benotigten Informationen, ins- 
besonderezum allgemeinen Hintergrund, laRt 
sich auf der Basis von schriftlichen Unterlagen 
beschaffen. Allgemeine Informationen wieGro- 
Re des Unternehmens, Zahl der Zweigstellen, 
Umsatz- und Gewinndaten kann man denjahr- 
lichen Geschaftsberichten entnehmen, diesich 
entweder an Universitatsbibliotheken (Wirt- 
schaftswissenschaften!) befinden Oder bei dem 
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potentiellen Auftraggeber direkt angefordert 
werden konnen. Eine nicht ganz problemlos 
zugangliche Informationsquelle sind nach 
Stichworten aufbereitete Archive von Zeitungs- 
bzw. Zeitschriftenartikeln, wiesie insbesondere 
diegroBen Verlage in der Bundesrepublik un- 
terhalten und gelegentlich auch externen In- 
teressenten zuganglich machen. 

Eine besonderswichtigeGrundlage sind person- 
liche Gesprach e mit dem potentiellen Auftrag- 
geber, die in jedem Fall herbeigefuhrt werden 
sollten. Uber Fakten hinaus kann man dabei 
auch Flintergrunde, erwartete Probleme und 
evtl. Konflikte zwischen Mitarbeitern Oder Ab- 
teilungen des Auftraggebers erfah ren oderdoch 
erahnen (geradein dieser H insicht istderdirekte 
personliche Kontakt dem leichter erreichbaren 
Tel efon gesprach weit uberlegen). Die Informa- 
tionsbeschaffung fur die Angebotserstellung ist 
haufig nicht nur ein sachliches Problem, son- 
dern auch ein taktisch-psychologisches. 

Die beste Vorbereitung fur ein personliches 
Gesprach ist das Erstellen einer Fragenliste, die 
man aber in keinem Fall als «Fragebogen» ver- 
stehen darf. Ein Informationsgesprach mit ei- 
nem potentiellen Auftraggeber sollte niemals 
den Charaktereinesstandardisierten Interviews 



haben. Das Gesprach mul$ moglichst flexibel 
gefuhrt werden, um auch gegenuber zunachst 
nicht berucksichtigten Aspekten often zu sein, 
gleichzeitig mu(5 aber sichergestellt werden, 
da(5 allerelevanten Bereicheangesprochen wer- 
den. Man kann eineentsprechendeAufstellung 
von abzuklarenden Punkten (vgl. dazu auch Dia- 
gramm v/ 2 ) durchaus als Arbeitsgrundlage neh- 
men. 

Auch bei sorgfaltigster Vorbereitung hangt 
der Gesprachserfolg stark vom Verhalten des 
Evaluators ab, wertvolle Flinweise dazu geben 
die psychologiegestutzten Ausarbeitungen fur 
effektive Gesprachsfuhrung (siehe dazu etwa 
Kopperschmidt, 1976 Flolly, 1979.) Bei der 
Ubertragung auf Informationsgesprache dieser 
Art mu(5 man allerdings bedenken, daft diese 
Ansatze meist aus dem klinischen Bereich her- 
ausentwickelt wurden und gewisser Modifizie- 
rungen bedurfen. 

Die explizite Nachbereitung der Informa- 
tionserhebungsphase unterbleibt leider oft. 
Anfanger nehmen sie zu wenig wichtig, und 
erfah ren eEvaluatoren haben dasGefuhl, ohne- 
diesallesan relevanten Ergebnissen auch ohne 
schriftliche Fixierung prasent zu haben. Meist 
gilt dies aber nur kurzfristig, man vergiftt auch 
entscheidende Punkte relativ schnell. 



Diagramm V/ 2 

Auflistung des besonders relevanten Informationsbedarfes am Beispiel «Werbestrategie» 


Anforderungen u. Auflagen von Seiten des Auftraggebers 


Restriktionen von Seiten der Auftraggebers 


• Klarung der Intention bzw. der Zielsetzung 

• Berucksichtigung der Firmenphilosophie 

• Verstandigung uber die Produkt- , Sortiments-, 
Distributions- und Finanzpolitik der Unternehmung 

• Abklarung der Konkurrenzsituation etc. 


• Definition des kalkulierten Zeit- und 
Kostenvolumens 

• Erfragen von Kapazitatsbeschrankungen etc. 


Informationen uber spezifische Eigenschaften u. 
Qualitaten des betreffenden Produktes 


Fragen der Entwicklung, Beschaffung, 
Finanzierung u. Distribution des Werbematerials 


• Abklarung (produktions-)technischer Details 

• Stellung des Produktes im Sortiment desAnbieters 

• innovative Eigenschaften u. Funktionen des Produktes 
etc. 


• Erfassung von akzeptierten M ieten u. 
Burokosten 

• Erfragen von Volumen fur Lohne u. Gehalter 

• Klarung der Frage «M ake or Buy» etc. 


Informationen uber die von der Unternehmung in der 
Vergangenheit durchgefiihrten Werbeaktionen 




• Strategien, Aufmachung 

• Erfolge, Defiziteetc. 
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5,1.2 Vorlaufiger Arbeitsplan 

Schon fur mittlere und erst recht fur groRe Pro- 
jekte empfiehlt es sich, die notwendigen Teil- 
schritte in Form eines strukturierten Arbeits- 
planes niederzulegen. Dieser muR nicht 
aufwendig formalisiert sein, sollte aber doch 
alle Punkte berucksichtigen, die ein Angebot 
unbedingt enthalten muR: 

• Die einzelnen vorgesehenen Arbeitsschritte 
in der fur das Projekt notwendigen zeitlichen 
Abfolge 

• Entscheidungspunkte, die im Verlaufe der 
Arbeit durch den Auftraggeber geklart wer- 
den mussen 

• Zu den einzelnen Arbeitsschritten den unge- 
fahr dafur vorgesehenen Aufwand (etwa An- 
zahl der Beobachtungseinheiten, ungefahre 
Dauer der Datenerhebung fur die einzelnen 
Interviewfalle usw.), evtl. mit Angabe emp- 
fohlener M indest- und Hochstgrenzen 

• EinesorgfaltigeAuflistung aller Arbeiten, die 
vom Arbeitgeber erbracht Oder von diesen 
auRerhalb des Angebotes in Auftrag gegeben 
werden sollen (etwa interne Entscheidungen 
nach einzelnen Projektteilen) 

• Alle vom Auftraggeber zu verantwortenden 
Vorarbeiten, dieaufgrund der Vorgesprache 
in Aussicht gestellt wurden und eine uner- 
laRI icheGrundlage des Angebotes sind (zum 
Beispiel die Zustimmung des Betriebsrates, 
der ausgewahlten Schulen etc.) 

Hinzu kommen naturlich moglichstexakteTer- 
minangaben und die erforderlichen finanziel- 
len Aufwendungen. Da sich der Auftraggeber 
im FalledesZustandekommenseinesVertrages 
selbstverstandlich auf diese Kalkulationen be- 
rufen wird, ist dies ein nicht ganz einfaches 
Vorhaben. Der sinnvolle Aufwand fur diesen 
(vorlaufigen) Arbeitsplan istschwereinzuschat- 
zen. Eine zu oberflachliche Analyse ist un- 
verantwortbar, da man ja spater an dieArbeits- 
schritte (auch hinsichtlich der Kosten) 
gebunden ist. Streng genommen konnte man 
ein verantwortbares Angebot erst dann vorle- 
gen, wenn alle Detail plan un gen abgeschlossen 
sind, da sich erstzu diesem Zeitpunkteinehalb- 
wegsexakte Kosten plan ung erstel I en laRt. Dem 
steht aber entgegen, daR in den meisten (in 
keiner Weise alien) Ausschreibungsfallen die 



Arbeiten zur Angebotserstellung bestenfalls bei 
Auftragserteilung in Rechnung gestellt werden 
konnen, so daR man zwischen der sachlichen 
Fundierung des Angebots und dem moglicher- 
weisefinanziell nicht ersetzten Arbeitsaufwand 
fur die Angebotserstellung abwagen muR. Dies 
ist fur kleinere Institute Oder gar freiberuflich 
tatige Wissenschaftler, diekommerziell Evalua- 
tion sprojektedurchfuhren, ein erhebliches Pro- 
blem. Bei mittelgroRen Evaluationsprojekten 
muR man fur alle Arbeitsschritte der Detail- 
planung biszu einem vollen Mannmonat rech- 
nen, die Selbstkosten dafur sind betrachtlich. 
Zum eigentlichen Bruttogehalt kommen die 
Lohnneben kosten (etwa 80%), Ausgaben fur 
Raummiete, Fleizung, Telefon und Arbeitsmit- 
tel sowie der von diesem M itarbeiter zu erbrin- 
gende Deckungsbetrag fur die ubrigen I nstituts- 
kosten (anteilige Umlage von zum Beispiel 
Ausgaben fur Verwaltungspersonal, technische 
Einrichtungen wieetwa EDV-Anlagen, Werbe- 
und PR-Aktionen, Aufwendungen fur Weiter- 
bildung wie Kongresse und dgl .). Ein Mann/ 
Monat kann daher auch bei kostengunstig ge- 
fuhrten Instituten leicht einem halben Jahres- 
nettoeinkommen einesakademisch vorgebilde- 
ten Mitarbeiters entsprechen. Da selbst bei 
gezielten Ausschreibungen, die von vom her- 
ein nuran furgeeignetgehaltenelnstitutionen 
ausgegeben werden, von dem potentiellen Auf- 
traggebern meist 3 bis 6 Angebote eingeholt 
werden (bei offenen Ausschreibungen ist die 
Zahl der Mitbewerber meist deutlich grower), 
muRteman im Durchschnittfur jeden tatsach- 
lich erhaltenen Auftrag mit Vorbereitungs- 
kosten von 2 bis 3 J ah resnettoein kommen 
rechnen. Es ware sehr schwer, solche Betrage 
zusatzlich in der Kostenkalkulation einzubrin- 
gen und trotzdem noch unter finanziellen Ge- 
sichtspunkten wettbewerbsfahig zu bleiben. 
Schon aus diesem Grund beschrankt sich die 
Ausarbeitung des Projektplanes fur die An- 
gebotserstellung auf eine grobe Vorplanung. 
Uberdies sind viele Auftraggeber nicht bereit, 
die auch fur sie zeitaufwendigen Arbeiten fur 
die Bereitstellung der notwendigen Detail- 
informationen fur neueAnbieter zu leisten. So 
ware es etwa einer Weiterbildungsabteilung 
nicht zumutbar, wegen einer fundierten An- 
gebotserstellung die M itarbeiter von etwa 6 
Oder gar 10 verschiedenen Anbietern wahrend 
jeweils mehrtagiger Flospitationen zum Zwecke 
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einer detail I ierteren Zielexplikation mit den 
Details der Bildungsarbeit vertraut zu machen. 
Vieleswird erleichtert, wenn eine langere ver- 
trauensvolleKooperation mitdem potentiellen 
Auftraggeber besteht Oder zumindest fundierte 
Erfahrungen mit ahnlichen Projekten vorlie- 
gen, von denen aus man die ungefahren Ko- 
sten ubertragen kann. Fur Anfanger, die ohne 
eine langere Mitarbeit in einereingefuhrten Un- 
ternehmung selbstandig Evaluationsprojekte 
einwerben wollen, ist der dem Angebot zugrun- 
deliegendeArbeitsplan leider einesehr risikorei- 
cheHurde, an der man auch bei sehrguten Fach- 
kenntnissen (etwa durch Erfahrungen in 
wissenschaftsbezogenen Projekten) scheitern 
kann. 



5.1.3 Zeit-und Kostenabschatzung 

FurdiesesFragestellungen wurden eineVielzahl 
von Techniken entwickelt, vor allem im wirt- 
schafts- und ingenieurwissenschaftlichen Be- 
reich. Einige davon sind in Diagramm v/3 zu- 
sammengestellt. 

Den gebrauchlichsten Verfahren (Balkenplan- 
und NetzplantechniksowieAbleitungen davon) 
geht eine Struktur- und eine Zeitanalyse voraus. 



Strukturanalyse 

Das Ziel der Strukturanalyse ist die Zerlegung 
desGesamtprojektesin dieeskonstituierenden: 



Diagramm V/ 3 

Ubersicht uber die Methoden der Projektplanung und -kontrolle 


Methoden der Kostenplanung und -kontrolle 


Methoden der Zeitplanung und -kontrolle 


• Abweichungsanalyse 


• Nutzen-Kosten- 


• Balkenplantechnik 


• Netzplantechnik 


• AuEerplanmaEige 


Analyse 


• Einsatzmitteluber- 


• PI an maEige Berichte 


Berichte 


• PI an maEige Berichte 


sicht 


• Prasentationen 


• Einsatzmitteluber- 


• Prasentationen 


• Graphen, Netze 


• Sofort-MaEnahmen- 


sicht 


• Sofort-MaEnahmen- 




Verfahren 


• Kostenentwicklungs- 


Verfahren 




• Soll-lst-Vergleich 


plan 


• Soll-lst-Vergleich 




• Termin-Trend- 


• Kostenschatzung und 


• Zahlungskontrolle 




Darstellung 


-erfassung 








• Kosten-Trend- 








Rechnung 








• Netzplantechnik 








Methoden der Durchfuhrungsplanung und 






-kontrolle 








• Anderungs/erfahren 


• Nutzenwertanalyse 






• Auftraga/ergabe 


• PI an maEige Berichte 






• Aul5erplanmal5ige 


• Planspiele 






Berichte 


• Prasentationen 






• Brainstorming 


• Projektbesprechung 






• Checklisten 


• Projekt- 






• Einsatzmitteluber- 


strukturanalyse 






sicht 


• Relei/anz- und 






• Dokumentation z.B. 


Entscheidungsbaum- 






Projektstrukturplan 


verfahren 






• Graphen, Netze 


• Szenario-Schreiben 






• Kontrollbesuche 


• Sofort-MaEnahmen- 






• Morphologische 


Verfahren 






Methoden 


• Soll-lst-Vergleich 







Fur eine ausfuhrliche Beschreibung der einzelnen Methoden siehe: Der Bundesminister fur Bildung, Forschung, 
Wissenschaft u. Technologie (Hrsg.), 1977 
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Diagramm V/ 4 

Strukturanalyse zur Durchfuhrung und Bewertung am Beispiel «Werbekampagne» 



VORGANG 

zeitforderndesGeschehen mit 
definiertem Anfang u. Ende 


EREIGNIS 

Eintreten eines definierten 
Zustandesim Projektverlauf 


ANORDNUNGSBEZIEHUNG 
quantifizierbare Abhangigkeit zw. 
den Vorgangen 


1. Gesprach mit Auftraggeber 


• Expose 





2 


2. Konzeptphase(lst-Zustands- 


• Konzeptvorlage 


1 


3, 5,8 


Analyse, Zielgruppenanalyse, 
Standortauswahl) 


• Projektdurchfuhrungsplan 


2 


4 


3. Planungsentwicklung 
(Konzeption des Marketing, 
Festlegung der Marketing- 
strategie) 


• Entwurf des Werbematerials 


3 


7 


4. GesprachemitWerbeagen- 
turen u. Designern 


• Kostenubersicht 


2 


6 


5. Einholen von Kostenvoran- 
schlagen 


• Auftragsvergabe 


5 


7 


6. Angebotsauswertung 


• Werbemittel 


6 


10 


7. HerstellungdesWerbe- 
materials 


• Personalauswahl 


2 


9 


8. Stellenausschreibungfur 
Distributoren/I nterviewer 

9. Personalschulung 


• einsatzfahi gel nterviewer 


8 


11 


10. Projektdurchfuhrungsphase 


• Werbekampagne 


7 


11 


11. Erhebung/lnterviews 


• Rohdaten 


10 


12 


12. Aus/vertung der Erhebungs- 
daten 


• AbschluEbericht, Evaluation 


11 





Diagramm V/ 5 

Zeitanalyse fur das Werbekampagne- 
Beispiel (vgl. Diagramm V/ 4) 


Vorgangs- 

nummer 


GemaG dem 

deterministischen 

Konzept 

Bestimmung d. 

Zeitvariablen 

aufgrund von 

Erfahrungswerten 


GemaG dem 

stochastischen 

Konzept 

Bestimmung d. 

Zeitvariablen 

aufgrund von 

Wahrscheinlichkeiten 


1 


1 


0,5 - 2 


2 


6 


4-7 


3 


2 


1-3 


4 


2 


1-3 


5 


1 


0,5 - 2 


6 


1 


0,5 - 2 


7 


5 


4-6 


8 


2 


1-3 


9 


1 


0,5 - 2 


10 


1 


0,5 - 2 


11 


1 


0,5 - 2 


12 


3 


2-4 



• Vorgange: zeiterfordernde Geschehnisse mit 
definiertem Anfang und Ende 

• Ereignisse: Eintreten eines definierten Zu- 
standes im Ablauf (des Projektes) 

• Anordnungsbeziehungen: quantifizierbare 
Abhangigkeiten zwischen den Vorgangen, 
deren Gesamtheit die Ablaufstruktur (des 
Projektes) bildet. 

(vgl. REFA, 1985) 

Zur Kennzeichnung der Anordnungsbezie- 
hungen zwischen den einzelnen Vorgangen wer- 
den die«Vorganger»(dem betreffenden Vorgang 
unmittelbar vorgeordneterVorgang) bzw. «Nach- 
folger» (unmittelbar nachgeordneter Vorgang) zu 
jedem Vorgang ermittelt und festgehalten. 

Esempfiehltsich, den Projektablauf zunachst 
global und danach mit fortschreitender Detail- 
lierung aufzugliedern. 

D i e Aufstel I u n g al I er Vo rgan ge, Erei gn i sse u n d 
Abhangigkeiten (Anforderungsbeziehungen), aus 
denen sich das Projekt zusammensetzt, erfolgt in 
der Regel auf Grund der Einbeziehung von Erfah- 
rungen ausderartigen Problemstellungen. 

Ein Beispiel fur eine solche Strukturanalyse 
gibt Diagramm V/ 4. 
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Diagramm V/ 6 

Graphische Darstellung der Ergebnisse aus Struktur- und Zeitanalyse als Balkenplan 
zum Beispiel «Werbekampagne» 




Legende: deterministischeZeitvariable 



Erlauterung: Durch den Balkenplan konnen sog. «Oder-Beziehungen» (d.h. der Nachfolger eines Vorganges 
X kann der Nachfolger Y Oder Z sein) nicht dargestellt werden. Zur Illustration s. 1: Verlaufen 
dieGesprache mit den Werbeagenturen erfolgreich, kann im AnschluG daran sofort die Pro- 
duktion des Werbematerials beginnen; Oder scheitern die Gesprache, so verzogert sich der 
Anfangstermin fur die Herstellung. Eine «Oder-Beziehung» kann auch fur 2 angenommen 
werden; die Bewertung der Kostenvoranschlage fuh rt zur Auftragserteilung und zieht die Her- 
stellung des Werbematerials nach sich Oder die Kosten bewertung fuhrt zur Einholung neuer 
Kostenvoranschlage anderer Firmen. 



Zeitanalyse 

DasZiel der Zeitanalyse istes, die Dauer der durch 
die Strukturanalyse gefundenen Vorgange und 
deren Anordnungsbeziehungen zu ermitteln. 

Die Dauer wird in Zeiteinheiten angegeben. 
Diedamit verbundenen numerischen GroBen 
erhalt man in der Regel entweder durch Ab- 
schatzung plausibel erscheinender Zeitinter- 
valle(sog. «stochastischesKonzept») Oder durch 
Ruckgriff auf die Erfahrungswertefruherer Pro- 



jekte «deterministisch» (mit test angenomme- 
nen Zeiten). Rein technische Variablen (zum 
Beispiel die Dauer fur die Fertigung des Werbe- 
materials) lassen sich durch Rucksprachen mit 
potentiellen Auftragnehmern unter Berucksich- 
tigung vorhandener Kapazitaten ermitteln. Fur 
dasWerbekampagne-Beispiel sind entsprechen- 
de (grobe) Abschatzungen fur den Zeitbedarf 
der einzelnen Vorgange aus Diagramm v/4 im 
Diagramm v/ 5 eingetragen. Auf diesen Grundla- 
gen bauen dann diespezifischen Techniken auf. 
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Diagramm V/ 7 

Graphische Darstellung eines Quick-Look-Plans zum Beispiel «Werbekampagne» 
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Legende: 



Erlauterung: 



geplanteTerminsituation (deterministische Zeitvariable) 
eingetreteneTermin situation 

Abhangigkeiten zwischen den Vorgangen 



Anmerkungen zu den Balken- und Term inverlagerun gen: z.B. ermoglicht der vorzeitige Ab- 
schlul5 der Gesprache mit den Auftraggebern eine terminliche Verlagerung der Konzeptphase 
(2), wodurch auch die Planungsentwicklung (3) zu einem fruheren Zeitpunkt aufgenommen 
werden kann. Durch die zusatzlich zur Verfiigung stehende Zeit kann diesedann profunder 
durchgefuhrt werden. 



Balkenplantechnik 

Das fur dieZeitplanung bei sozialwissenschaft- 
lichen Projekten wohl gebrauchlichste Verfah- 
ren ist die Balken pi an -Tech nik. DieZeiten fur 
die einzelnen Arbeitsvorgange werden abge- 
schatzt, die einzelnen Arbeiten der zeitlichen 
Sequenz nach geordnet und unter Berucksich- 
tigung von Uberlappungsbereichen in Dia- 
grammform dargestellt. Ein Beispiel dafur fin- 
del: sich im Diagramm v/6, ausfuhrlichere 
Darstellungen dieser Methodesowieauch Hin- 
weiseauf verwandteVerfahren gibt Brand, 1974 



Bundesminister fur Forschung und Technolo- 
gie, 1977). Ein ausfuhrliches Beispiel fur die 
Studienplanung, insbesondere im Zusammen- 
hang mit der Diplomarbeit, gibt Wottawa, 
(1996). 

Dieses Verfahren ist leicht verstandlich, auch 
fur Laien ubersichtlich und fur einfache Pro- 
jektvorhaben voll ausreichend. Schwierigkeiten 
treten auf, wenn die einzelnen Arbeitsteile in 
komplizierter Weise miteinander verknupft 
sind, also etwa die Erledigung von drei spezifi- 
schen Vorarbeiten mitjeweilsunterschiedlicher 
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Diagramm V/ 8 

Arbeitsschritte der Netzplantechnik nach (REFA, 1985) 



Problem stel lung 



1. Zeitplan (Kostenplan) fur alleArbeitsschritte eines Projektes? 

2. Kontrolleund Termin- (Kosten-) Uberwachung? 

3. Darstellung der logischen Zusammenhange vom Anfang biszum Endtermin? 

4. Auffinden der potentiellen kritischen Engpasse des Projektes? 



Nein 



anderes 

Planungsverfahren 



Ja 



Netzplantechnik 



Phase 1: Ereignisse, Vo rgan ge / Arbeitsschritte Phase 2: Dauer (Kosten) der Vorgang^ 

(«9:rukturanalyse»s, Balkenplantechnik) Arbeitsschritte(«Zeitplananlyse»s, Balkenplantechnik) 



ja 

I 



Zeit-Kostenvariablen bekannt? nein 

I 



Bestimmung des«kritischen»Wegesauf 
Grundvon Erfahrungswerten 
(deterministisches Konzept), 



I 



Netzplanberechnung auf Grund von 
Schatzwerten (stochastisches Konzept), 

I 



Phase 3: Erstellung des Netzplanes 



Bestan dtei I e/ El emen te zu r 
Konstruktion eines Netzplanes: 

a) Elementezur Darstellung strukturanalytischer 
Ergebnisse: 

• Erei gn i sse = «Kn oten » □ 

• (reale) VorgangeWbeitsschritte =Pfeile > 

• fiktiveVorgange'Arbeitsschritte, dieeingefuhrt 
werden, um den Nebenbedingungen zu genugen = 
Scheinvorgange - - — > 

b) Darstellung zeitanalytischer Werte 

• Zeitangaben (deterministisch und oderstochastische) 

• die Zeitvariablen werden nur den realen Vorgangen 
zugeordnet, Scheinvorgange haben grundsatzlich die 
Zeitdauer null. 



G ru n dsatz^ N eben bed i n gu n gen 

1. Alle Vorgange und Ereignisse rnussen genau defi- 
niert sein 

2. dasNetzwerk hat nur einen Start- und Endpunkt 

3. dasNetz ist luckenlos verknupft, d.h. jedes Ereig- 
nisist uberein Kette von Vorgangen mitdem Start 
und Endeverbunden 

4. zwei Ereignisse diirfen nur durch einen einzigen 
Vorgang verbunden sein 

5. jedem Vorgang ist eine Zeitvariable zugeordnet, 
(bei dieser Methode sagt die Lange des Pfeiles 
nichtsuberden Zeitbedarf aus!) 

6. das Netz mul? schleifenfrei verlaufen 

7. parallel verlaufende Vorgange werden durch 
«Scheinvorgange» miteinander verbunden (damit 
Bedingung 4 nicht verletzt wird) 



Phase 4: Graphische Darstellung des Netzplans 



Phase 5: Netzplanberechnung 

Unter verschiedenen Wegen vom Anfang biszum Endpunkt gibt es einen Weg von I an gster Zeitdauer (sog. «kriti- 
scher Weg»), dieser Weg bestimmt den fruhestmoglichen Zeitpunkt fur das Projektende, d.h. addiert man alle 
Zeitvariablen, die den Vorgangen des «kritischen Weges» zugeordnet sind, so reprasentiert dieSummeden fruhest- 
moglichen Endzeitpunkt 
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Diagramm V/ 9 

Graphische Darstellung eines Netzplans zum Beispiel «Werbekampagne» 
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Legende: 

V/4) 



□ 



( 2 ) 

(1-3) 



( 1 ) 

(0,5-2) 



Ereignis (x) (A =1, B =2, etc. aus Diagramm 




Vorgang (n) 

Scheinvorgang 

determi n i sti sch e Zei tvari abl e 

stochastischeZeitvariable 



Zeitdauer die Voraussetzung sind, mit einem 
vierten Projektschritt begin nen zu konnen, falls 
dieser nicht auf Grundlage eines anderen, ub- 
licherweise langer andauernden Projektfort- 
schrittes aufgebaut werden kann. Fur solche 
komplizierten Falleund insbesondere fur eine 
sachgerechteZeitabschatzung bei sehr komple- 
xen Arbeitsvorhaben wurde die sogenannte 
«Netzplantechnik» (s.u.) entwickelt, die auch 
den Vorteil hat, EDV-gestutzten Optimierungs- 
abschatzungen zuganglich zu sein. 

Ein Spezialfall der Balkenplantechnik ist der 
sogenannteQuick-Look-Plan. Erdientzur Kon- 
trolleder Projektfortschritte. Die geplante Ter- 
minsituation wird mit der tatsachlichen ver- 
glichen (Soll-lst-Vergleich), um Abweichungen 
moglichstfruhzeitig zu erkennen. 

DasVorgehen isteinfach. Unterden Balken 
mit der geplanten Dauer wird zusatzlich der 
tatsachlich ben otigte Zei tauf wand eingetragen 
(fur ein Beispiel s. Diagramm V/ 7). 



Netzplantechnik 

Fur komplizierte Projekte mit vielfaltig abhan- 
gigen Vorgangen ist der Balkenplan ungeeig- 
net, in diesen Fallen wird meist die Netzplan- 
technik gewah It. Dieeinzelnen Arbeitsphasen 



diesesVorgehenssind in Diagramm V/8 darge- 
stellt. DieUbertragungdesBalkenplanesausDia- 
gramm v/ 6 in diese Darstellungsform gibt Dia- 
gramm V/ 9. 

Das Diagramm V/ 9 zeigt die logische Verknup- 
fung der Vorgange und Ereignisse des Projek- 
tes. Jedes Ereignis ist uber eine Kette von Vor- 
gangen mit dem Start- und Endpunkt 
verbunden. 

Zur Bestimmungdesfruhestmoglichen Projekt- 
termins ist es zunachst erforderlich, die Dauer 
aller moglichen Wege, die(vom Startpunktaus- 
gehend) zum Endpunkt des Netzes fuhren, zu 
berechnen. Dieses geschieht durch Addition al- 
ler (deterministischen) Zei tvari abl en, die den 
Vorgangen eines Weges zugeordnet sind. Aus 
den verschiedenen Summenwerten wird dann 
der Wert minimaler numerischer GroBe 
selegiert; dieser reprasentiert die Dauer des sog. 
«kritischen Weges». 

Der kritische Weg im Beispiel aus Diagramm v/ 9 
waremit 15 Zeiteinheiten verbunden: 

(16 2 2 5 1 13) = 21 

(16 115 113) = 19 

(16 2 1113) = 15 
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Mochteman den ungunstigsten (spatesten) 
Projektendtermin ermitteln, so addiert man je- 
weilsden maximalen stochastischen Wert aller 
Vorgange, dieauf dem «kritischen Weg»liegen. 
Im Beispiel: 

(2 7 336 2 24) = 29 

Netzplane erlauben es auch, in Abhangigkeit 
von «Entscheidungsknoten»von Anfangan ver- 
schiedene Projektvarianten vorzusehen. 1st es 
zum Beispiel unsicher, ob die Stellenausschrei- 
bung der Interviewer (Vorgang 8 in dem Netz- 
plan aus Diagramm v/9) ausreichend viele gut 
geeigneteMitarbeitererbringt, konnen zwei ver- 
schiedene weitere Arbeitsplane erstellt werden 
(zum Beispiel zusatzlicher Einbau einer lange- 
ren Schulungsphaseoder Anderungder Materia- 
lien in der Form, daG man mit weniger gutem 
Personal auskommt). Solche Vorausplanungen 
von mehr Oder weniger wahrschein lichen «Ka- 
tastrophen» erleichtern die Bewaltigung von 
Problemen wahrend der Projektdurchfuhrungs- 
phase aufterordentlich. Leider geht die Uber- 
sichtlichkeitdesNetzplanesverloren, wenn man 
zu viele Entscheidungknoten vorsieht, so daft 
man selten mehr als zwei dieser Knoten gleich- 
zeitig aufnehmen kann. 

Erweitert man diesen Ansatz um eine Ab- 
sch atzung der Ei ntreten swah rsch ei n I i ch kei t der 
Ausgange des Entscheidungsknoten (im Bei- 
spiel: erfolgreiche Personalsuche bzw. MiRer- 
folg), lassen sich Netzplanezum Entscheidungs- 
netzplan-Verfahren ausbauen, die den Vorteil 
haben, auch «oder-Beziehungen»zwischen den 
Vorgangen zu erfassen. Als Beispiel etwa: «M it 
der Erhebung kann begonnen werden, wenn 
entweder die Stellenausschreibung den er- 
wunschten Erfolg hatte Oder weitere, zusatzli- 
cheSchulungen abgeschlossen wurden oderdie 
Erhebungsmaterialien entsprechend modifi- 
ziert wurden». Mit dieser Erweiterung ist die 
Netzplan-Vorgehensweise dann den Balken- 
planen auch qualitativ uberlegen. 

Als besondere Starke von Netzplanen sind zu 
nennen: 

• Ubersichtliche Darstellung termingebun- 
dener Projekte 

• geringer Rechenaufwand 

• der Planer wird gezwungen, alle Projekte zu- 
sammenhangend grundlich zu durchdenken 



• real i sti sch e Festlegung von Term in en 

• potentielle Engpasse/Storungen konnen klar 
erkannt werden, da der Netzplan eine syste- 
matischeund lucken lose Darstellung der zwi- 
schen den Vorgangen bestehenden Zusam- 
menhangeermoglicht. 

Fur wirklich komplexe Projekte (diese sind al- 
lerdingsbei normalen Evaluationsfragestellun- 
gen selten, am ehesten treten sienoch bei einer 
langfristigen, formativen Programmevaluation 
auf) sind grafische Darstellungen allerdings 
nicht mehr ubersichtlich genug, so daft man 
dann entsprechende EDV-Flilfen benotigt, was 
die Arbeit erschwert. AuBerdem ist die Zuver- 
lassigkeitderZeitabschatzungen immerein Pro- 
blem, da man stets mit unerwarteten Ereignis- 
sen rechnen mulS. Netzplane sind daher zwar 
ein der «lntuition» der Projektleitung sicher 
uberlegenes Mittel, man dart sie aber auch 
nicht als absolut sicher und durch spatere Er- 
fahrung im laufenden Projekt nicht zu korrigie- 
rende Tatsachenfeststellungen fehlinterpretie- 
ren. 



Kostenschatzung 

Im Prinzip ist die Berechnung der durch das 
Projekt ausgelosten Kosten relativ leicht, wenn 
dieeinzelnen Vorgange und diedafur erforder- 
lichen Zeiten wirklich gut in den Zeitplan auf- 
genommen wurden. Man brauchtdann nurdie 
Personal kosten fur diejeweiligen Arbeiten (un- 
ter Einrechnung aller Lohnneben kosten, vgl. 
Einleitung zu Kap. 5) mit den Zeiten zu multi- 
plizieren. Die Sachkosten (Material etc.) sind 
meist aus vorliegenden Angeboten bekannt. 

EinesolcheKalkulation ist etwadieGrundla- 
ge eines Universitatsin sti tuts fur die Beantra- 
gungvon Forderungsmitteln bei der Deutschen 
Forschungsgemeinschaft Oder einer Stiftung, da 
in solchen Fallen die Fixkosten (Verwaltungs- 
apparat, «Leerlaufe» ohne finanzierte Projekte, 
Weiterbildungs- und Vorbereitungszeiten, Ko- 
sten fur Raumeund Grundaustattung) von der 
Offentlichen FI and getragen werden und die 
erheblichen steuerlichen Belastungen privater 
Unternehmen ebenfallskeineRollespielen. Die 
«tatsachlichen» Kosten bei Finanzierung der 
Institution uber Evaluationsprojekte konnen 
leicht, je nach Ausmaft der erforderlichen Bei- 
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trage zu den laufenden Institutskosten, das 
Doppeltederzunachst kalku Merten Betrageaus- 
machen. SozialwissenschaftMch gestutzteange- 
wandteTatigkeit ist bedauerMcherweiseteuer. 

EinesehrguteUbungistes, sich fureineklei- 
ne, u berschau bare Arbeit (zum Beispiel dieei- 
geneDiplomarbeit) diegesamten Kosten durch- 
zurechnen, und dabei neben der eigentlichen 
Arbeitszeit auch die von der Universitat getra- 
genen Aufwendungen, so insbesondere fur 
hochspezialisierte Beratung, mitzu berucksich- 
tigen. Vor diesem Hintergrund werden die 
manchen Anfangern traumhaften «Tagessatze» 
von erfolgreichen freiberuflich tatigen Kollegen 
verstandlich, dieje nach Kalkulationsart und 
personlichem Marktwert durchausbei derHalf- 
te(und mehr) eines Monatseinkommenseines 
Anfangersim often tlichen Dienst mit akademi- 
scher Vorbildung liegen. 



Entscheidungsbaumverfahren 



BO F HH M BO 
BO F M HH BO 
BO M HH F BO 
BO M F HH BO 



224 495 780 610 
224 400 780 349 
614 780 495 224 
614 400 495 349 



2110 

1753 

2113 

1858 



Leidersteigtder Aufwand mitderZahl derStad- 
te enorm an. Schon fur 10! =3628800 Mog- 
lichkeiten ist auch ein schneller Rechner sehr 
gefordert, die Rechenzeiten konnen teurer wer- 
den als die Einsparungen durch die optimale 
Reihenfolge. In solchen Fallen kann man mit 
«begrenzter Enumeration» arbeiten. Man be- 
ginnt mit einer plausibel erscheinenden Rei- 
henfolge (so wird niemand meinen, daft man 
die Strecke M-HFI-F wahlen sollte) und ver- 
sucht davon ausgehend, weitere Verbesserun- 
gen durch Permutation zu finden. 

Eine umfangreichere Ubersicht uber die hier 
skizzierten Tech ni ken gibt Ziegenbein, 1984; 
Bramsemann, 1978. 



In manchen Evaluationsprojekten stellt sich 
unter Kosten aspekten die Frage nach der opti- 
malen Reihenfolge von Teilarbeiten. Besonders 
typisch dafur sind Term invereinbarun gen an 
verschiedenen Orten (etwa zur Durchfuhrung 
von Datenerhebung durch das gleiche Team 
Oder die Abhaltung von Experten interviews). 

Das konzeptuell einfachste Vorgehen dabei 
ist die sogenannte Voll-Enumeration. Dabei 
werden einfach alle moglichen Reihenfolgen 
durchpermutiert und der fur jede Variante er- 
forderliche Aufwand (etwa die Fahrstrecken) 
bestimmt. 

Wurdeetwa in dem Werbekampagne-Bei spiel 
jeweilsein Gesprach zwischen dem Projektlei- 
ter (Sitz Bochum, BO) und Geschaftsfuhrern in 
Frankfurt (F), Flamburg (H FH ) und Munchen (M) 
zu fuhren sein, ergibt sich fur jede Reihenfolge 
der Gesprache der Fahrtaufwand annahernd 
durch die Addition der Entfernungskilometer. 
Da drei Stadte in der Reihenfolge zu permutie- 
ren sind (Bochum steht ja als Ausgangs- und 
Endpunkt fest), erhalt man 3! =6 verschiedene 
Moglichkeiten, und zwar: 



Reihenfolge 


Einzeldistanzen 


Summe 


BO H H F M BO 
BO HH M F BO 


349 495 400 610 
349 780 400 224 


1854 

1753 



5.2 Designfragen 

War das Angebot erfolgreich, kann die Detail- 
planung beginnen. GewisseVorstellungen uber 
die anzuwendenden Methoden, Designs und 
Auswertungstechniken muftten naturlich schon 
vorliegen, um den Arbeitsplan gemalS Ab- 
schnitt 5.1 zu erstellen. Die Detailarbeit erfolgt 
aus Kostengrunden aber meist erst nach Auf- 
tragserteilung. 

EsgibtzahlreicheBucher, in denen dieverschie- 
denen Moglichkeiten der formalen Design- 
pi an u n g en twed er au s gru n d I agen w i sen sch aft- 
licher Sicht (vgl. dazu Schulz, 1981; Cook, 
1979) oderspeziell fur Evaluationsprojektedar- 
gestellt sind, etwa in Rutman, 1977; Trochim, 
1984. Die Vielfaltigkeit des Aufgabenfeldes 
«Evaluation» (vgl. dazu Diagramm ll/2) la(3t es 
kaum moglich erscheinen, im Rahmen eines 
einzelnen Kapitels die Designproblematik er- 
schopfend zu behandeln. In den folgenden 3 
Unterabschnitten kann nurauf diewichtigsten 
Fehlerquellen, typischen Untersuchungsplane 
und bewahrte Erhebungstechniken verwiesen 
werden, die Detailproblematik der einzelnen 
Verfahren findetsich in der jeweiligen Spezial- 
literatur. 
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5.2.1 Fehlerquellen 

lm Prinzip gibt es nahezu unubersehbar viele 
Fehlerquellen bei der Durchfuhrung von Eva- 
luationsprojekten. Besonders oft storen fol- 
gende: 

• Reifung 

• Nicht-Aquivalenz (von Vergleichsgruppen) 

• Mortalitat (im statistischen Sinne) 

Wichtig i st, daR man diese Storquellen nicht 
nur im engsten Sinn der Begriffsdeutung sieht, 
sondern das Prinzip, die dahinterstehenden 
Strukturprobleme, auch in verschiedene Kon- 
texte ubertragt. Als Bei spiel e: 



Reifung 

«Reifung»im Sinne einer Fehlerquelle von De- 
signs liegt dann vor, wenn es general I e Veran- 
derungen gibt, die nicht auf gezielt gesetzte 
MaRnahmen zuruckgehen (etwa eine zuneh- 
mende Akzeptanz von EDV in Verwaltungs- 
berufen). Siefinden sich u.a. bei: 

• Bewertung von Werbekampagnen (durch 
«Gewohnung»an dieKonsumgewohnheiten 
dersozialen Umgebung) 

• den medizinisch-therapeutischen Bereich 
(zum Beispiel Coping-Strategien bei chroni- 
schen Krankheiten) 

• Aufklarungsaktionen, etwa bzgl. neuer ge- 
setzlicher Bestimmungen, zum Beispiel fur 
von der Offentlichen Fland gewahrten Un- 
terstutzungen (durch langsames Gewohnen 
der Betroffenen und der Verwaltungsstellen 
an die routinemaRige Beantragung und Ver- 
gabedieser Mittel) . 

• Schuluntersuchungen, die ohne ausreichen- 
de Kontrollgruppen im Langsschnitt durch- 
gefuhrt werden und keineTrennung von Pro- 
gramm- und Entwicklungseffekten zulassen. 

Generell zwingt dieser Verfalschungsaspekt zu 
Designs, die nicht nur die Entwicklung der zu 
evaluierenden MaRnahmeuberdieZeit hinweg 
verfolgen, sondern auch Beobachtungsgruppen 
ohne die Auswirkungen der MaRnahme vorse- 
hen. Leider ist dies manchesmal technisch 
unmoglich (zum Beispiel bei gesetzlichen MaR- 
n ah men) Oder wegen der Frage nach vergleich- 



baren Teilgruppen (mit bzw. ohne MaRnah- 
menwirkung) zumindest schwierig. 



Aquvi valenzprobleme 

An die Nicht-Aquivalenz denkt man vor allem, 
wenn esnicht moglich ist, die Probanden nach 
einem Zufallsprinzip den verschiedenen Eva- 
luationsbedingungen zuzuweisen; dies ist 
typischerweise bei ( parti el I er) Selbstselektion 
der Probanden der Fall, etwa bei der freiwilli- 
gen Anmeldung von Schulern zu bestimmten 
Schulformen (man kann - zum Gluck - in de- 
mokratischen Staaten niemand zwingen, sein 
Kindzu Untersuchungszwecken einer bestimm- 
ten Schulart Oder gar einer Versuchsschule an- 
zuvertrauen) Oder bei der Zuordnung von 
Treatment-Gruppen im Konsens mit den Be- 
troffenen (so warees kaum vorstellbar, daR man 
zum Zwecke einer Evaluation verschiedener 
chirurgischer Eingriffsmoglichkeiten bei Brust- 
krebs die betroffenen Frauen nach Zufall ent- 
weder einer radikalen Entfernung Oder einer 
teilweisedieBrusterhaltenden operativen MaR- 
nahme zufuhrt); gleichermaRen ware es bei 
einer psychologischen Intervention nicht ver- 
tretbar, auch schwierige Falle (zum Beispiel 
hoch selbstmordgefahrdete Patienten) aus 
Untersuchungsgrunden einer «Warteliste» zu- 
zufuhren und zunachst auf eine H ilfestellung 
zu verzichten Oder sie einem neuen, bisher 
nicht bewahrten Ansatz als Therapietechnik 
auszusetzen. 

Das gleiche Problem der Nicht-Aquivalenz 
liegt auch vor, wenn sich die Schaffung von 
Bedingungskonstellationen furdieEvaluations- 
maRnahme nicht willkurlich gestalten laRt, 
sondern bestimmte Kombinationen aus Sach- 
grunden vorgegeben sind; typische Beispiele 
dafur: 

• die Kombination von Lehrern und Schul- 
formen (freiwillige Meldungen zu bestimm- 
ten Schulformen verzerren die Ergebnisse 
u.U. ebenso wie Zwangsversetzungen mit 
den darauf folgenden negativen emotiona- 
len Einstellungen der Betroffenen), 

• die Kombination des didaktischen Vorge- 
hens und der Trainer fur Weiterbildungs- 
maRnahmen (selbst wenn hier durch 
Anweisung zum Beispiel fur zufallig ausge- 
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wahlte Trainer ein spezieller Seminarstil vor- 
geschrieben werden konnte, ware das fur die 
Aussagekraft des Ergebn isses aufgrund der zu 
erwartenden Wechselwirkungen zwischen 
Trainerpersonlichkeit und didaktischem 
Konzept zweifelhaft) 

• die Herstellung von Bedingungskombina- 
tionen, diegefahrlicheAuswirkungen haben 
konnten (man denke etwa an einen Feld- 
versuch zur Verkehrslenkung und die Kom- 
bination des Verkehrszei chens «Schule» und 
«Geschwindigkeitsbeschrankung auf 120 
km/h»). 



Statistische Mortalitat 

Die statistische «Mortalitat» stammt ursprung- 
lich aus dem medizinischen Bereich (das Ster- 
ben der Patienten wahrend der unterschiedli- 
chen Behandlungen mitschwierigen Folgen fur 
dieAuswertung, vgl. dazu Cook und Campbell, 
1976). Bei imengeren Sinnesozialwissenschaft- 
licher Evaluation tritt das gleiche Phanomen 
auf, wird aber dort bedauerlicherweiseoft nicht 
ausreichend beachtet, da das «Sterben» bzw. 
Aussscheiden von Probanden in diesem Bereich 
im Gegensatz zur medizinischen Behandlung 
nicht besonders eng und systematised mit der 
Intervention verknupft erscheint. Dasstruktu- 
rell gleiche Phanomen zeigt sich aber, wenn 
sich Probanden eineralsunangenehm empfun- 
denen Situation entziehen (spezielle Schule, 
langerfristiges Weiterbildungsprogramm, zum 
Zwecke der Evaluation neu gestaltete Arbeits- 
bedingung). Analysiert man ohneBerucksichti- 
gungdieser AusscheiderdieMaftnahme, bauen 
alle Vergleiche nur auf den Person en auf, de- 
nen diespezifische Interventionsbedingung re- 
lativ zugesagt hat, was eine Uberschatzung der 
positiven Auswirkung der MaBnahme zur Fol- 
gehat(vorallem dann, wenn einerneuen Vari- 
ante, zum Beispiel bei der Arbeitsgestaltung, 
ausgewichen werden kann, wahrendem sich 
ein Verbleiben in den bisherigen Bedingungen 
nur wesentlich schwerer vermeiden lielSe, vgl. 
3.3.3). Der strukturell gleiche, aber anders ver- 
ursachteProblemkreisliegt vor, wenn die«Mor- 
talitat» durch die spezifischen Gegebenheiten 
der jeweilszu evaluierenden MaBnahmen be- 
einfluftt wird. Ein Beispiel dafur ist der Ver- 
gleich von Schulorganisationsformen mit und 



ohneder Moglichkeit, bei schlechten Leistun- 
gen aufgrund der Beurteilung der Lehrer eine 
Klasse wiederholen zu mussen, was im Quer- 
schnittsvergleich der Klassenstufen eineVerzer- 
rung der durchschnittlichen Leistungsstarken 
ergibt. 

Es ist die Aufgabe des Evaluators, durch die 
Gestaltung des Untersuchungsplanes und der 
Rah men bed in gun gen alle denkbaren Stor- 
quellen so gering wie moglich zu halten. Esist 
aber unter den ublichen quasi-experimentellen 
Bedingungen faktisch nicht moglich, alle Oder 
auch nur alle plausibel erscheinenden Verzer- 
rungen auszuschlieSen, woraussich die prinzi- 
pielle Angreifbarkeit jeder zumindest groBeren 
Evaluationsstudie im Feld ergibt. 



5.2.2 Untersuchungsplane 

Eine Ubersicht uber einige besonders wichtige 
Untersuchungsplane (in Anlehnung an Cook 
& Campbell, 1976) ist im Diagramm v/ 10 enthal- 
ten. 

Das Grundbestreben aller Designansatze ist 
es, Storquellen (insbesondere die im vorherge- 
henden Abschnitt skizzierten) soweit wie mog- 
lich auszuschlieiSen. Wieschon der Name«Ver- 
suchsplane» andeutet, kommen sie zum 
grolSten Teil aus Entwicklungen im Bereich der 
experimentellen Grundlagenforschung, wo 
sich auch das Ausschalten von Storeffekten in 
annahernd idealer Weise realisieren la(3t. Sie 
passen daher im wesentlichen zu einersumma- 
tiven Evaluation verschiedener, moglichst dis- 
junkter MaBnahmen. 

Fur die meisten Falle der Programmevalua- 
tion im Feld kommen nurquasi-experimentelle 
Designs in Frage, diedeshalb ausfuhrlich in Dia- 
gramm v / 10 enthalten sind. Diefiir echteexperi- 
mentelle Designs erforderliche Bildung von 
wirklich aquivalenten Vergleichsgruppen ist 
nur in manchen, der Grundlagenforschung na- 
hestehenden Evaluationsvorhaben moglich. 
Typische Beispiele dafur sind: 

• Fragestellungen, bei denen wichtige Teilas- 
pektein kontrol Merten Untersuchungen ge- 
pruft werden konnen; zum Beispiel Verstand- 
lichkeit von Textvarianten, Akzeptanz von 
Werbemitteln, Prufung der Benutzerfreund- 
lichkeitvon Geraten. Flier ist eine echte Zu- 
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Diagramm V/ 10 

Ubersicht uber besonders wichtige Versuchsplane (vgl 


Cook & Campetl, 1976) 
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teilung nach Zufall zu den verschiedenen 
Gruppen moglich. 

• Studien, diewegen derhohen Bedeutungder 
Ergebnisse unter Konsens aller Beteiligten 
trotz erheblicher praktischer Konsequenzen 
randomisiert erfolgen konnen; typisch dafur 
sind etwa Prufungen von Pharmazeutika, 
wenn ein neues, vorgetestetes Praparat mit 
dem bisherigen Standardmittel im Doppel- 
Blind-Versuch verglichen wird. DieGrenzen 
der zufalligen Zuteilung liegen dort, wo die 
unmittelbaren Folgen des Treatments fur die 
Betroffenen gravierend sind (zum Beispiel bei 
der Prufung des Nutzens einer Vollampu- 
tation gegenuber einer brusterhaltenden 
Operation bei Brustkrebs). 

• Feldexperimente zu Fragen, dieeineGrup- 
penzuweisung nach (fast) zufalliger Auswah I 
erlauben, dadieProbanden gar nicht wissen, 
daft sie an einer Evaluationsstudie mitwir- 
ken; dies gilt etwa furdieBewertung von ver- 
schiedenen Formen einer Semin argestal tun g 
in der Weiterbildung bei zufalliger Aufteilung 
ohnehin vorhandener Parallel gruppen, das 
Erproben verschiedener Interviewtechniken 
Oder, mitgewissen Einschrankungen bezug- 
lich der Gruppenaquivalenz, bei Maftnah- 
men zur Verkehrslenkung. 

Solche Studien sind aus wissenschaftlich-me- 
thodischer Sicht naturlich besonders aussage- 
kraftig, sollten aber wegen der fur viele Frage- 
stellungen unrealistisch hohen Anforderungen 
nicht als die einzig zulassige Vorgehensweise 
angesehen werden. 

Sonderfall: Uberprufung der Zielereichung 

Die hier diskutierten Designfragen stellen sich 
im Prinzip nicht, wenn dasZiel der Evaluations- 
studie (zum Beispiel im Rahmen desQualitats- 
managements, siehe Abschnitt 2.2.4) die Kon- 
trolle des Erreichens eines vorher festgelegten 
Ergebnisprofils ist. Da in diesem Fall keinever- 
gleichende Evaluation vorliegt, erubrigtsich die 
Notwendigkeit, durch entsprechende Designs 
aussagekrafti ge G ru ppen vergl ei ch e zu si ch ern . 

Allerdings muft man sich bei einem solchen 
Ansatz daruber im klaren sein, daft die damit 
erzielten Ergebnisse keinerlei Aussagen uber 
Kausalursachen zulassen. Sie sind daher zum 
Beispiel gut geeignet, um die Erful lung vertrag- 



lich zugesagter Leistungen (wasja ein wesentli- 
ches Element desQualitatsmanagement ist) zu 
uberprufen, Oder um Flinweise auf Schwach- 
stellen (in welchen Bereichen wurdedieerwar- 
teteLeistung nicht erbracht?) zu geben. Eskann 
aber daraus nicht abgeleitet werden, ob dieeva- 
luierte Maftnahme tatsachlich die «Ursache» 
der Zi el errei chung (oder der Zielverfehlung) 
war, da stetsauf eineVielzahl moglicher weite- 
rer forderlicher Oder das Ergebnis beeintrachti- 
gender Faktoren verwiesen werden kann. Fur 
manche Fragestellungen ist der Verweisauf sol- 
che Drittvariablen allerdings nicht nahelie- 
gend, vor allem bei der Uberprufung von Lei- 
stungen, die unmittelbar fur Kunden bzw. 
Lei stungsempf anger erbracht wurden (wenn 
Tei I n eh mer oh n e en tsprechen de Vorken ntn i sse 
zu einer drei-tagigen EDV-Schulung geschickt 
werden, und danach diezugesagten Leistungs- 
ergebnisseim Abschlufttesterzielen, isteskaum 
glaubhaft, daft dies auf andere Faktoren als die 
Trainingsmaftnahme selbst zuruckgeht). Je we- 
n i ger d i rekt aber d i e W i rkun g der M aftn ah men 
gepruft wird, um so problematischer wird der 
mogliche Einfluft von Zusatzaspekten . So ware 
etwa im gewahlten Beispiel die Feststel lung des 
Trainingserfolgesan zugesagten Tran sferlei stun - 
gen (also die tatsachliche Nutzung der Lern- 
inhaltein der beruflichen Praxis) schon wesent- 
lich weniger stringent auf das Training 
zuruckzufuhren, da positive Ergebnisse zum 
Beispiel durch die H i I f estel lung von Vorgesetz- 
ten oder Kollegen erreicht werden konnen 
(selbst bei einem vollig unzureichenden Trai- 
ning), und die Nicht-Erfullung der Ergebnis- 
vereinbarung auch bei hoher Trainingsqualitat 
durch Rah men bed in gun gen (zu grafter zeitli- 
cher Abstand zwischen Training und der tat- 
sachlichen Moglichkeit der Nutzung der 
Trainingsergebnisse durch vorubergehend feh- 
lende technische Moglichkeiten am Arbeits- 
platz, Widerstande gegen die Nutzung der 
Trainingsinhalte durch einezum Beispiel sub- 
jektiv verschlechtert erlebteArbeitssituation bei 
Anwendung der neuen Kenntnisse, Behinde- 
rung des Trainingstransfers durch Vorgesetzte 
oder Kollegen, die auf das Beibehalten der bis- 
herigen Verfahrensweisen drangen und sofort) 
verursacht werden kann. Es empfiehlt sich da- 
her auch bei solchen Evaluationsstudien, die 
zunachst kein unmittelbares Designproblem 
stellen, mogliche fordernde oder hemmende 
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Aspekte rechtzeitig in den Untersuchungsplan 
aufzunehmen um damit zumindest korrelativ, 
wenn auch nicht kausal-experimentell, zu ei- 
ner weiteren Aufklarung des Bedingungsgefuges 
beitragen zu konnen. Ein solches Vorgehen ist 
insbesondere dann unverzichtbar, wenn die 
Zielsetzung formativer Art ist, also eine Verbes- 
serung der Gestaltung der evaluierten M aRnah- 
men erfolgen soil. 

Grenzen der Realisierbarkeit von 
Idealforderungen 

Wie schwierig die Erfullung strenger Design- 
forderungen selbst in sorgfaltigen, mit hohem 
Aufwand durchfuhrbaren Evaluationsstudien 
ist, zeigen etwa die «Konstanzer Studien» zur 
Gesamtschu I evaluation in den Bundeslandern 
Niedersachsen, Flessen und Nordrhein-Westfa- 
len. Selbst wenn man nur fur die Schulgestal- 



tung wichtigsten Faktoren kombiniert, ergibt 
sich der im Diagramm v/ li dargestellte «Plan», 
dergegen allePrinzipien der Auswertbarkeit (im 
Sinne des Allgemeinen Linearen Modells, vgl. 
dazu etwa Rochel, 1983) verstoRt. DieUrsache 
dafur ist naturlich nicht Inkompetenz Oder 
boser Wi lie der Verantwortlichen, sondern die 
bei Evaluationsstudien im Feld kaum vermeid- 
bare Berucksichtigung wissenschafts- bzw. 
untersuchungsexterner Faktoren. Was soil der 
Evaluator zum Beispiel tun, wenn aufgrund 
programmatischer Einstellungen der verant- 
wortlichen Bildungspolitiker die Gesamtschu- 
len in einem Bundesland praktisch nur in 
Ganztagsform real isiert wird, wahrendem sich 
Ganztagsschulen im gegliederten Schulwesen 
nicht reprasentativfinden? 

AuRerhalb der summativen Evaluation kann 
man oft uberhaupt nicht von einem «Versuchs- 
plan»sprechen (etwa bei antizipatorischer Eva- 



Diagramm V/ 11 

Beispiel eines unvollstandigen, daher nicht auswertbaren Designs der Konstanzer 
Studien (aus Wottawa, 1982) 
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luation), und fur viele Fragestellungen der for- 
mativen Evaluation entsprechen die real isier- 
ten «Designs» keinen vertretbaren Forderun- 
gen. Man denkeetwadaran, daft im Laufeeines 
langerfristigen Prozessesein Therapeutenteam 
die Details einer bestimmten Therapietechnik, 
inklusiveder dafur erforderlichen Indikations- 
stellung, optimieren mochte. Die Einhaltung 
von Versuchsplanbestimmungen, etwa eine 
randomisierte Zuteilung von Personen, wurde 
vor allem bei einer ausfuhrlichen Indikations- 
stellung an der Verfugbarkeit vergleich barer 
Probanden in einem uberschaubaren Zeitraum 
scheitern. GleicheProblemefinden sich bei vie- 
len Arten der berufsbegleitenden formativen 
Evaluation, zum Beispiel bei der Verbesserung 
des didaktischen Vorgehens von Lehrern, Ver- 
anderungen im Fuhrungsverhalten von Mana- 
gern Oder die Fortentwicklung von Werbe- 
maBnahmen. In diesen Fallen ist der 
entscheidendeZweckder Datenerhebung nicht 
eine vergleichende Bewertung im Sinne des 
«Flypothesentestens», sondern soil primar heu- 
ristischen Wert haben, Flinweiseauf mogliche 
und sinnvolle Verbesserungsvorschlage liefern. 
Solche dynamischen Prozesse widersetzen sich 
im Regelfall einer wissenschaftlich exakten 
Versuchsplanung. 

Notwendig: Praktikable Kompromisse 

Eine moglichst gute Kenntnis der Techniken 
der Versuchsplanung zur Vermeidung von Stor- 
effekten ist eine unverzichtbare kognitive 
Grundlagefur ein sinnvolles Arbeiten im Be- 
reich von Evaluationsprojekten. Man darf nur 
nicht den Fehler machen, «sklavisch» an den 
entsprechenden, von derGrundlagenforschung 
hergepragten Vorbildern zu hangen. Diesesind 
zwar bei entsprechenden Voraussetzungen op- 
timal e Bearbeitungswege, aber in keiner Weise 
dieeinzigeMoglichkeit, heuristisch verwertbare 
Informationen zu sammeln. Nur fur den relativ 
kleinen, aber das Bild des Evaluators zumindest 
in der Literatur stark pragenden Teilbereich 
summativer Evaluation konnen Idealvorstel- 
lungen bezuglich der Design s gel egentlich wirk- 
lich realisiert werden. In den ubrigen Fallen 
stellen die Designforderungen haufig nur eine 
Denkhilfein Form einesnicht-erreichbaren Ide- 
als dar, dessen Annaherung man soweit wie 
moglich versuchen sollte. Falsch warees: 



• eine Untersuchung nur deswegen als unwis- 
senschaftlich abzulehnen und nicht durch- 
zufuhren, weil sieausunvermeidbaren, sach- 
inharenten Grunden den Designforderungen 
nicht voll entsprechen kann 

• nicht alles zu tun, um die fur die Vermei- 
dung von Storquellen sinnvollen Design- 
forderungen soweit wie moglich zu errei- 
chen 

• eine veroffentlichte Evaluationsstudie nur 
deswegen negativ zu charakterisieren, weil 
sie idealen methodischen Anforderungen 
nicht entspricht. 

Dieser letzte Punkt ist von besonderer prakti- 
scher Bedeutung bei Projekten, dieaus uberge- 
ordneten Gesichtspunkten heraus kontrovers 
beurteilt werden, was fur viele gerade gesamt- 
gesellschaftlich besonders relevante Vorhaben 
zutrifft. Da sich bei groReren Vorhaben im Re- 
gelfall nicht vermeidbare M ethodenschwachen 
Oder der Zwang ergeben, entweder den einen 
Oder den anderen Nachteil in Kauf zu n eh men, 
ist einedarauf gestutzte n ach tragi iche Kritik im 
Sinne einer Abwertung der Aussagekraft der 
erreichten Ergebnissepraktisch immer moglich 
und damit letztlich nicht aussagekraftig. Das 
Problem ist, daR esandererseitsnaturlich auch 
Evaluationsprojekte gibt, die wesentlich 
schlechter als notwendig durchgefuhrt bzw. 
weit uberinterpretiert wurden und zu Schlus- 
sen kommen, die sich gerade auch aufgrund 
der M ethodenschwachen wirklich nicht auf 
die gefundenen Daten stutzen lassen. Ob es 
sich im Einzelfall um eine professionell sehr 
gute, unterden gegebenen Rah men bed in gun - 
gen ptimale Designlosung handelt Oder eine 
auch fachlich sehr schwache Studie vorliegt, 
kann auf der Basisdesveroffentlichten Berich- 
tes oft nicht entschieden werden, da dort die 
schwierige Flintergrundsituation haufig nicht 
mehr ausreichend dargestellt ist (bzw. der Ver- 
dacht entstehen kann, da(5 Schwierigkeiten 
aufgebauscht werden, um unnotige methodi- 
sche Schwachen im Nachhinein zu rechtferti- 
gen). Fur die Abwagung zwischen den beiden 
Ubeln «Ungerechtfertigte Kriti k» und «Kritik- 
lose Flinnahme nicht vertretbarer Studien» 
fehlen derzeit profession el I e Standards, die 
vielleicht bei einer qualitativen und quantita- 
tiven Zunahmevon praktisch tatigen Evalua- 
toren allmahlich entstehen werden. 
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5.2.3 Datenerhebungsverfahren 

Auf die besondere Problematik einer sinnvol- 
len Definition der jeweiligen Bewertungs- 
kriterien wurde bereits im Abschnitt 4.2.3 ver- 
wiesen. Fur die konkrete Erhebung der jeweils 
ausgewahlten Kriterien stellt sich das aus 
grundlagenwissenschaftlicher Sicht bedauerli- 
che Problem, daR nicht selten gilt: Je exakter 
die Art des MeRverfahrens, um so geringer der 
praktische Nutzen. 

Tests bzw. Fragebogen 

Aus Grunden der Exaktheit besonders wun- 
schenswert waren sorgfaltig konstruierte (psy- 
chologische) Testverfahren, die einer problem- 
adaquaten Testtheorie genugen. Esdurfteaber 
kaum Evaluationsprojekte geben, in denen es 
mdglich ist, den dafurerforderlichen Konstruk- 
tionsaufwand zusatzlich zu den sonstigen Ar- 
beiten abzudecken. Man ist daher im Regelfall 
darauf angewiesen, auf vorhandene M eRverfah- 
ren Oder einfachere Konzepte zuruckzugreifen. 

Dieublichen, am Markt erhaltlichen Testver- 
fahren sind ausnaheliegenden Grunden entwe- 
der fur Forsch ungszwecke (mit starker An lehnung 
an theoretisch-psychologische Konstrukte) Oder 
fur angewandt-diagnostische Fragen entwickelt 
worden, nicht fur Evaluationszwecke. Dies be- 
reitet insbesonderefolgende Probleme: 

• OftgeringeAnderungssensitivitat; meistsind 
die Items so ausgewahlt, daft sie auch eine 
hohe Testwiederholungsreliabilitat zeigen, 
und damit gerade nicht kurzfristig fluk- 
turierende, leichter einer Intervention zu- 
gangl iche Aspekte erfassen (besonders deut- 
lich im Intelligenzbereich). 

• Die Lange der Testverfahren ist auf die Be- 
durfnisse der Einzelfalldiagnostik abgestellt, 
so dalS sie fur maRnahmebezogene Evaluati- 
on (die auf der Basis von Gruppendaten er- 
folgt) haufig unter Effizienzaspekten zu auf- 
wendig sind; die Reduktion der Testlange 
verandert aber, soweit nicht aufgrund desje- 
weiligen Verfahrens von einer annahernden 
Paral lei itat der einzelnen Items auszugehen 
ist, auch die inhaltl ichen Aspekte und beein- 
trachtigt somit stark die Bezugnahme auf die 
wissenschaftlichen Grundlagen und sonsti- 
ge mit dem Test gewonnenen Erfahrungen. 



• Die Konstrukte, fur die die jeweiligen Test- 
verfahren Operationalisierungen darstellen, 
sind uberwiegend nach den Bedurfnissen der 
Forschung Oder der Diagnostik ausgewahlt; 
sie decken oft nicht den Operationalisie- 
rungsbedarf von Evaluationsprojekten ab. Als 
Beispiel: Um einen Schuler mit Schwierigkei- 
ten im Sprachbereich zu helfen, ist fur die 
Differential diagnose ein die einzelnen Berei- 
che der Sprachbeherrschung ausdifferenzie- 
ren des Testverfahren von groRem Vorteil - 
aber wiefaRt man Wortschatz, Satzstruktur, 
Beherrschung der Zeitformen, Wortflussig- 
keitetc. zu einer MalSzahl zusammen, diedie 
Evaluation zweier verschiedener Lehrbuch- 
varianten gestattet? 

• Der Zusammenhang zwischen Testwert und 
Nutzen (vgl. Abschnitt 4.3.1) ist entweder 
uberhaupt nicht bekannt Oder dem Auftrag- 
geber zumindest schwer vermittelbar; was 
wurde es zum Beispiel an praxisrelevanten 
Nutzen bedeuten, wenn ein Fuhrungskrafte- 
training im Durchschnitt bei den Teilneh- 
mern eine Steigerung des Faktors Q2 im 16 
PF um einen Staninwert (eine Normierungs- 
art, bei der den Prozentrangen 0 bis 10 der 
Wert 1, zwischen 11 und 20 der Wert 2 etc. 
zugeordnet wird) erbringt? 

In Anbetracht dieser Sachlagegibt esnur weni- 
ge Bereiche, in denen der Einsatz von wissen- 
schaftlich konstruierten «allgemeinen»Testver- 
fahren wirklich empfehlenswert ist. Haufig 
finden sich solche Evaluationsprojekte in den 
USA fur den padagogischen Bereich, da dort 
Tests auch als schulische Prufungen eingesetzt 
werden (vergleich bar damit ist in der Bundesre- 
publik Deutschland etwa die Bewertung der 
Ausbildung verschiedener medizinischer Fakul- 
taten anhand der bundesweit einheitlichen 
Prufungen im ersten medizinischen Staatsex- 
amen), zum gleichen Zweck konnen auch die 
Bundeslander mit Zentralabitur (in manchen 
Bundeslandern, zum Beispiel Baden -Wurttem- 
berg, werden in jedem Jahr fur das ganze Land 
gleiche Abituraufgaben gestellt) diese Arbeiten 
heranziehen, ohne daR dort der Anspruch an 
«Testkonstruktion» bei den Prufungsaufgaben 
erfullt ware. Fur manche therapeutische Inter- 
ventionen bei Kindern konnen Entwicklungs- 
bzw. Reifetests eingesetzt werden, bei Erwach- 
senen wird man haufig mit speziel I en Konstruk- 
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tionen (etwa GAS, vgl. Diagramm IV/ 8) vorteil- 
h after arbeiten. 

Das Bestreben vieler Evaluatoren, objektive 
Testverfah ren einzusetzen, ist verstandlich. 
Man muB aberauch dieGrenzen derMoglich- 
keiten dieser Instrumentezumindest bei ihrem 
derzeitigen Entwicklungsstand sehen, und es 
kann sinnvoller sein, mit einer «weichen», we- 
nigerexakten und elaborierten Methodeein in- 
teressantes Kriterium zu messen als mit hoher 
Prazision etwas, was inhaltlich nicht zu den ei- 
gentlichen Evaluationszielen paBt. Allerdings 
ist der «Verteidigungswert» von sog. bewahrten 
Testverfah ren gegen spatere Kritik hoher als bei 
ad-hoc konstruierten Instrumenten. 

Eine etwas weniger fundierte MeBmethode ist 
der Versuch, im Rah men des Evaluations- 
projektes Fragebogen fur die interessanten 
Variablen selbstzu konstruieren. Oft istdiesdas 
einzig denkbare Vorgehen, da die schriftliche 
Vorgabe von Fragebogen gegen uber den Wer- 
ten unter besprochenen Alternativen (Verhal- 



tensbeobachtung und mundliche Interviews) 
wesentlich kostengunstiger ist. Einige beson- 
ders wichtige Probleme, wiesiebei Fragebogen 
wissenschaftlich untersucht sind, finden sich 
im Diagramm V/ 12. Auch bei sorgfaltiger Gestal- 
tung kann naturlich nicht verhindert werden, 
daB man immer nur die (Selbst-) Einschatzung 
der Befragten erfahrtunddamitderVerhaltens- 
und Praxisbezug immer angezweifelt werden 
kann. 



Beobachtung 

Die Vermeidung der «Realitatsferne», die man 
Testergebnissen und Fragebogen zuschreiben 
kann, ist mit Methoden der Verhaltens- 
beobachtung moglich (vgl. etwa Konig, 1972). 
Diese Methoden sind dann ideal, wenn der 
technische Aufwand bewaltigbar ist und sich 
die Evaluationskriterien wirklich auf beob- 
achtbare Verhaltensweisen beziehen. Typische 
Beispiele: 



Diagramm V/ 12 

Probleme der Fragebogenkonstruktion (nach Konig, 1972) 



• KlarungderFrage, welcheAuskunfte von den Befragten gewunscht werden 

• KlarungderFrage, an welchePersonen-(Gruppen) sich der Fragebogen richten soil 

• Wahl destesttheoretischen Ansatzes(Modellwahl) 

• Auswahl dereinzelnen Fragen; die verschiedenen Einzelfragen mussen so aufeinander abgestimmt werden, daE 
einelogische Fortentwicklung der Fragen gegeben und somit ein einheitlichesGanzesvorhanden ist. 

• Formulierung der Fragen 

1. Wahl assoziationsarmer, unbelasteter und subgruppenspezifischer Formulierungen sowie einfacher und klarer 
Syntax 

2. Bei heiklen Themen: Formulierung muE so ga/vahlt werden, daE der Befragte bei bestimmten Antworten keinen 
Prestigeverlust befurchten muE und somit Abwehrmechanismen auf ein MindestmaE besch ran kt werden konnen 

3. Verwendung offener vs. geschlossener Fragen 

4. Wahl der moglichen Antwortalternativen (bei geschlossenen Fragen) Dichotomie vs. Auswahl zwischen meh- 
reren Moglichkeiten 

5. Verwendung indirekter Oder direkter Frage (Face-Validitat fur die Befragten) 

6. Probleme, die sich bei indirekten Fragen ergeben: Selbstdarstellungstendenzen Oder Fragebeantwortung im 
H inblick auf sozialeErwunschtheit von Seiten der Befragten, WiderstandedesRespondenten, etc. 

7. Probleme die sich bei direkten Fragen ergeben: Probleme, die Gultigkeit derartiger Fragen zu bewerten 

8. Fragen mussen so formuliert werden, daE die Befragten zur M itarbeit bereit sind 

9. Fragen durfen nicht dieggf. vorhandenen Erwartungen desTestkonstrukteurs widerspiegeln 

• Anzahl der Fragen und Stellung der Fragen in der Fragenfolge (Abfolge von den einfacheren zu den komplizier- 
teren Fragen, Berucksichtigung potentieller Ermudungseffekte bei exzessivem Fragenumfang 

• Aufzeichnung der Fragebogendaten 

1. Feldverschlusselung 

2. wortlicheAufzeichnung 

3. Gewichtung der verschiedenen Antwortalternativen 
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• Verhaltenstherapien, etwa hinsichtlich pho- 
bischer Reaktionen 

• Trainings in Sozi al tech ni ken, etwa Diskus- 
si on sverh al ten , Kom m u n i kati on stech n i ken 
Oder Gesprachsfuhrung 

• Lehrverfahren Oder Lehrmethoden mit ko- 
gnitiven Inhalten und unmittelbarer Hand- 
lungsrelevanz, etwa die Bedienung von 
Maschinen, EDV-Anlagen Oder auch die 
«Postkorb-U bung» aus dem Assessmentcenter. 

FurdieseBeispielewird esangemessen sein, das 
Verhalten unmittelbar (etwa die Reaktion auf 
einen vorher massiv Angst auslosenden Reiz, 
Aufbau und Durchfuhrung einesVortrages, die 
Art des Umganges mit der Maschine) zu erhe- 
ben anstatt indirekt uber Fragebogen Oder Tests 
Meinungen bzw. Kompetenzen zu erfassen. 
Was Verhaltensbeobachtungen aber nicht di- 
rekt leisten konnen, ist die Erfassung der sub- 
jektiv gesehenen Zusammenhange und Ursa- 
chen fur die jeweilige Verhaltensweise. Diese 
Strukturen, die vor allem Flinweise auf Opti- 



mierung der jeweiligen MalSnahmen geben 
konnen, mussen von Beobachtern im Nachhin- 
ein in dieobjektiv beobachtbaren Fakten hin- 
eininterpretiert werden, was naturlich zu Ver- 
zerrungen fuhren kann. 



Interviewtechniken 

Fur die Erfassung der subjektiven Erklarungen 
fur das Verhalten sowie generell fur sehr kom- 
plexekognitive Strukturen und deren Verande- 
rungen ist das offene Oder teils strukturierte 
Interview ein sehr aufwendiges, aber unver- 
zichtbares H i Ifsmittel . Flinweise dazu gibt Dia- 
gramm V/ 13. 

Bei normaler Gesprachsfuhrung bleibtfurdie 
Interpretation der subjektiv gesehenen Zusam- 
menhange ein fur Evaluationsfragestellungen 
manchesmal nicht vertretbarer Spielraum des 
Interviewers, so dalS sich der Einsatz spezieller 
Techniken empfiehlt, wenn gerade die Veran- 
derung solcher subjektiven Theorien das Ziel 



Diagramm V/ 13 

Das Interview - Grundbegriffe und Probleme ( Konig , 1972) 



Aufgaben des Interviews 

• Entdeckung: Auffinden der relevanten Variablen, diezur Flerstellungdertheoretischen Zusammenhange beno- 
tigt werden Oder die eine Abgrenzung der relevanten Befragtengruppen erlauben 

• Messung: von Auspragung der Variablen. (M it welcher Haufi gkeit sind bestimmte Variablen in einer bestimm- 
ten Population verteilt?) 

• Interpretation u. Verfeinerung statistischer Beziehungen: Deutung unerwarteter Korrelationen Oder sog. «Aus- 
reiGer-Falle» 

Formen 

Unterscheidung strukturiert - unstrukturiert bezieht sich darauf, ob ein Fragebogen verwendet wird 

• strukturiert: mit Fragebogen, Inhalt, Anzahl u. Reihenfolge der Fragen festlegt 

• unstrukturiert: kein Fragebogen Oder nur Gesprachsleitfaden, hoher Freiheitsspielraum. Fragen sind dem 
Befragten jeweils individuell anpaGbar 

Unterscheidung geschlossene- offene Fragen bezieht sich auf die Form dereinzelnen Fragen 

• geschlossen: Auswahl derzutreffenden Alternativen aus einer Reihevon Antwortmdglichkeiten 

• often: erfordert freies Antwortverhalten 

Unterscheidung stan dardisiert - nicht-standardisiert, Bezieht sich auf die Verwendung von Antwortkategorien 

• standardisiert: individuelle Antworten nach Kategorien geordnet, sodaG sich fur die befragte Gruppe Haufig- 
keitsverteilungen ergeben 

• nicht-standardisiert: Verzicht auf Kategorisierung, nur sinnvoll, wenn auf Haufigkeitsverteilungen und Ver- 
gleichbarkeit verzichtet werden kann. 

Unterscheidung weiches, neutral es, hartes Interview, anhangig davon, wieautoritar derlnterviewerdaslnterview 

leitet. 

• Problem: EinfluG des Interviewers (Auftreten, Art d. Frageformulierung, Tonfall, etc.), EinfluG d. Situation 
(Storfaktoren wieLarm, unerwartete Unterbrech ungen durch Telefonanrufe wahrend des Interviews, etc.) 

• Ist die Vergleichbarkeit der Einzeldaten derart garantiert, daG sie tatsachlich als Flaufigkeiten bestimmten 
Variablen zuordbar sind? 

• Entsprechen die erhobenen Daten normalen, alltaglichen Verhaltensweisen u. Einstellungen der Befragten 
oderspiegeln dieDaten lediglich Artefakte wider? 
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von InterventionsmaBnahmen sind. Dafurste- 
hen u.a. dieVerfahren zurVerfugung, dieschon 
in 4.2.3 (Diagramm IV/ 6 und IV/ 7) besprochen 
wurden. 

Die Ful le der im sozialwissenschaftlichen Be- 
reich eingefuhrten Erhebungsmethoden konnte 
hier nur in dieser groben Form vorgestellt wer- 
den, ausfuhrlichere Einblicke gibt etwa Bortz, 
1984. 



5.3 Auswertungsverfahren 

Die vorgesehenen Auswertungsverfahren soil- 
ten schon in der Planungsphase moglichst ge- 
nau mit dem Auftraggeber abgesprochen wer- 
den - zumindest dann, wenn dieser uberhaupt 
bereit ist, sich auf solche «Detailfragen» einzu- 
lassen. Ganz besonders gilt die Notwendigkeit 
der Vorabsprache fur die prinzipielle Entschei- 
dung, ob uberhaupt statistisch vorgegangen 
werden soil Oder eine eher beschreibend-ver- 
stehende, hermeneutische Vorgehensweise ge- 
wunscht wird. 

Ein wichtiger Punkt, sofern man statistisch 
vorgehen mochte, ist die Entscheidung zwi- 
schen festen StichprobengroBen Oder Sequen- 
tialstatistik. Bei der letzteren wird nicht von 
vorn herein dieAnzahl derzu untersuchenden 
Personen festgelegt, sondern die Hypothesen- 
prufung schrittweise, nach jeder neu untersuch- 
ten Person nochmalsdurchgefuhrt. Darin liegt 
ein erheblicher Vorteil: Bei festen Gruppen- 
groBen kann essein, daB eine Signifikanz nur 
deswegen nicht auftritt, weil man ein paar Pro- 
banden zuwenig eingeplant hat. Tatsachlich 
sind jadieTrennscharfe-Abschatzungen, diedie 
Grundlage fur eine sinnvolle Bestimmung der 
GruppengroBen bieten konnten, meist nur 
schwach fundiert und werden uberdies in der 
Forschungspraxis nur selten uberhaupt einge- 
setzt (s. dazu Gigerenzer, 1989). Ebenso schade 
ist es, wenn man viel zu viele Personen unter- 
sucht, etwa mehrere hundert, und die statisti- 
sche Absicherung der Effekte schon mit einem 
Bruchteil davon moglich gewesen ware. 

Da die Sequentialstatistik garantiert, daB ge- 
rade soviele Daten erhoben werden, wie man 
zur Entscheidungsfindung benotigt, reduziert 
siediedurchschnittlich erforderlichen Proban- 
denzahlen ganz enorm, Angaben uber ca. 2/3 



an Einsparungen sind durchausrealistisch. Die- 
ses Vorgehen sollte daher insbesondere dann 
gewahlt werden, wenn die Probanden stark be- 
lastigt Oder gar geschadigt (und sei es nur in 
Form des Unterbleibens einer an sich mogli- 
chen besseren Forderung) werden. Dadadurch 
u berd i es wesen tl i ch e Kosten ei n gespart werden , 
sollte sie fur viele Evaluationsstudien das be- 
vorzugte statistische Flerangehen sein. Aller- 
dings gibt es auch Grunde, die dagegen spre- 
chen: 

• Die Kosten der Datenerhebung sind nicht im 
Vornherein kalkulierbar; die Probandenzahl 
hangt ja, im Gegensatz zu festen Stich- 
probengroBen, von den erst zu erhebenden 
Resultaten ab. 

• Geradewegen der Einsparung von Personen 
liefert die Sequentialstatistik oft schon signi- 
fikante Ergebnisse, wenn erst eine der «ub- 
lichen» Gepflogenheiten nach zu geringe 
StichprobengroBe erreicht ist; die konkreten 
Erfahrungen zeigen, daB die Auftraggeber 
manchmal erhebliche Schwierigkeiten ha- 
ben, eine solche «zu kleine» empirische Stu- 
die zu akzeptieren (vor allem dann, wenn 
die Ergebnisse nicht der Vorerwartung ent- 
sprachen); hier ist rechtzeitige Aufklarung 
vor Bekanntsein der Ergebnise unverzicht- 
bar! 

• Die Sequentialstatistik erfordert mehr Vor- 
uberlegungen, insbesondere bezuglich der 
Alternativhypothesen: Dies kann, vor allem 
bei mehrdimensionalen Flo Schwierigkeiten 
machen. 

Fur weitere Details zur Sequentialstatistik siehe 
etwa Wald, 1947; Bauer et al ., 1986. Auf die 
Schwierigkeiten, diese Verfahren trotz offen- 
sichtlicher theoretischer und pragmatischer 
Uberlegenheit im sozialwissenschaftlichen Be- 
reich verstarkt einzufuhren, verweist Diepgen, 
1987. 

Esistnaturlich unmoglich, im Rahmen eines 
allgemeinen Evaluationsbuches alle methodi- 
schen Ansatze im Detail darzustellen. Im fol- 
genden finden sich zunachsteinigeAusfuhrun- 
gen uber das Problem von Effektstarken (5.3.1), 
dieleider haufig durch bloBesSignifikanztesten 
ersetzt werden; daran anschlieBend werden ei- 
nige fur den Evaluationsbereich wichtige Be- 
sonderheiten I inear-statistischer Verfahren be- 
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sprochen (5.3.2), da diese fur die Auswertung 
von Evaluationsprojekten eine quantitativ be- 
sondereBedeutung haben. Im letzten Abschnitt 
(5.3.3) wird ein kurzer Uberblick uber wichtige 
qualitative Verfahren gegeben, dieinsbesondere 
fur die Auswertung «weicher» Daten (Nominal- 
skalen Oder uberhaupt keineexpliziteMessung, 
wie sie bei Interviewergebnisse haufig ist) Be- 
deutung haben. 

Fundierte Einblicke in die Fulle im Rahmen 
der sozialwissenschaftlichen Evaluationsfor- 
schung relevanten Methoden geben etwa Cook 
und Reichard, 1979 Oder Bortz, 1993. 



5.3.1 Beurteilung der Effektstarke 

Fur viele Fragestellungen im Zusammenhang 
mit Evaluationen genugt es nicht zu wissen, 
dalS ein Effekt besteht, sondern man mochte 
auch Angaben daruber, wiegrolS zum Beispiel 
der Unterschied zwischen zwei Programm- 
varianten ist. Lei der ist diese Fragevi el kompli- 
zierter, als man zunachst meinen sollte. Die 
mangelnde Vertrautheit mit der (fur psycholo- 
gische bzw. sozialwissenschaftliche Meftinstru- 
men te sel bstverstan d I i chen ) Skal en probl emati k 
in der Offentlichkeit bzw. bei den Nutzern der 
Projektergebnisse, dieVerwechslung von Signi- 
fikanzund Relevanz, sowie die haufige Fehlin- 
terpretation von statistischen Kennzahlen 
durch Laien erschwert wesentlich einesachge- 
rechte Kommunikation der Evaluationsergeb- 
nisse. 



Normierte Skalenwerte 

Sofern man von einer sorgfaltigen Messung 
durch Tests, Fragebogen Oder Verhaltens- 
beobachtungen ausgehen kann, ist in sozial- 
wissenschaftlichen Projekten das Meftniveau 
auf Interval I skal en niveau erreichbar. Bei diesen 
sind beliebige lineare Transformationen mog- 
lich, ohne dalS die inhaltliche Aussage veran- 
dert wurde. 

Man benutzt dies, um die an sich ohne Zu- 
satzin formation nicht interpretierbaren Ereig- 
nisse (was heilSt es, wenn in einem Test eine 
Probandengruppe im Mittel 18, dieandere 25 
Punkte erreicht hat?) zu standardisieren. Am 
gebrauchlichsten sind dafur Vorgehensweisen, 



die M ittelwert und Standardabwei chung festle- 
gen und die Einzelergebnisse in Relation dazu 
umformen. 

Welche Festlegung von M ittelwert und Stan- 
dardabweichung man wahlt, ist aber im Prin- 
zip willkurlich. Haufig (vgl. Lienert, 1969) sind 
z-Werte(M ittelwert 0, Standardabweichung 1), 
T-Werte (50 bzw. 10) und Standardwerte (100 
bzw. 10). Ein z-Wert von 1 entspricht also ei- 
nem T-Wert von 60 (M ittelwert eine Standard- 
abweichung) und einem Standardwert von 110. 
Sachlich sind alle drei Darstellungen aquiva- 
lent. 

Diese Vergleichbarkeit gilt aber nicht fur die 
Aufnahme der Information bei «Laien» Oder gar 
den Medien. Hat etwa ein Schulsystem in ei- 
nem Bewertungskriterium gegenuber der 
Normstich probe einen Wert erhalten, der eine 
halbe Streuung unter dem M ittelwert der 
Normstich probe liegt, und das andere System 
ein genau dem Norm-M ittelwert entsprechen- 
des Ergebnis, so wurde dies in z-Werten «0,5» 
bzw. «0,0» bedeuten. Fur Laien wareschon die 
Vorstellung einer negativen Schulleistung ab- 
surd, und daft ein Leistungswert von genau 
Null etwas Gutes sein konnte, ware fur viele 
schwer vorstellbar. Betrachtet man nur die Dif- 
ferenz der beiden Systeme, so entsteht bei ei- 
nem Wert von 0,5 eigentlich der Eindruck ei- 
nesvernachlassigbaren («Hinterdem Komma») 
Unterschiedes. Etwas anderes ware der gleiche 
Sachverhalt mit Standardwerten. Fur daszwei- 
te System klingt die Angabe von 100 (statt 0) 
eigentlich nach volliger Sol l-Erfull ung, und eine 
Differenz von funf Punkten (vermutlich als 
«5%» vollig fehli n terpreti ert)klingtjahal bwegs 
beachtlich. 

Gerade unter dem GesichtspunktderOffent- 
lichkeitswirkung hat es sich in den USAeinge- 
burgert, die Evaluationsergebnisse von Schul- 
untersu chun gen (zum Beispiel alljahrliche 
Leistungsveranderungen) auf einer Skala anzu- 
geben, deren M ittelwert 350 und die Standard- 
abweichung 50 betragt. Auf dieser Skala ware 
das hier beispielhaft verwendete Ergebnis 325 
zu 350, und 25 Punkte weniger ist ja durchaus 
beachtlicherals0,5 z-Werte, zumindestfurden 
Laien. 

Es kan n kei n e «ri ch ti ge» N orm i eru n g geben , da 
die entsprechenden Setzungen bei Intervall- 
skalen eben willkurlich sind. Vielleicht ware es 



136 Planungvon Evaluationsprojekten 



sinnvoll, sich auf eine Skala bei offentlichen 
Darstellungen zu einigen, damit allmahlich ein 
Gefuhl fur die Bedeutung von zum Beispiel 10 
Standardwerten entsteht. Verwenden sollte 
man die normierten Werte bei der Ergebnis- 
darstellung vor allem dann, wenn dieAdressa- 
ten uber eine entsprechende Vorbildung ver- 
fugen. In jedem Fall sind normierte Werte 
gunstigeralsdieRoh-Punkte, dadieseauch von 
Fachleuten ohneZusatzinformationen (dieeine 
implizite Normierung ermoglicht) nicht inter- 
pretiert werden konnen. 



Signifikant = relevant? 

Zusatzlich zum AusmaR gefundener Unter- 
schiede muR geklart werden, ob diese viel leicht 
nur durch Zufallsschwankungen in der Stich- 
probenziehung in der gefundenen GroRe auf- 
treten konnen, also nicht als gesicherte, von 
Null verschiedene Befunde zu interpret eren 
sind. Dazu bedient man sich der bekannten 
Methoden der statistischen Inferenz. Die (in 
vieler H i nsi cht bedauerlicherweise) haufigste 
statistischeTesttheoriefur die Auswertung psy- 
chologischer Oder sozialwissenschaftlicher Stu- 
dien geht auf Ney man -Pearson zuruck. Die 
Grundidee(vgl. dazu ausfuhrlicher Bortz, 1979) 
solcher Auswertungen in den meisten Anwen- 
dungen aus dem Grundlagenbereich ist, daR 
man zunachst eine Flypothese(Fl 0 ) aufstellt, an 
die man ohnedies nicht glaubt (zum Beispiel 
kein Unterschied zwischen verschiedenen MaR- 
nahmen) und sich dann freut, wenn dieschon 
inhaltlich unplausible Null-Flypothese auf- 
grund der empirischen Beobachtungen falsifi- 
ziert werden kann (esalso doch Unterschiede 
zwischen den MaRnahmen gibt). DieFreudeist 
voll berechtigt, dasieim wesentlichen aussagt, 
da(5 der Untersucher ausreichend viel und 
grundlich gearbeitet hat - unter den ublichen 
Stetigkeitsannahmen (kontinuierliche Para- 
meterdimension, unendliche Population) ist 
die Chance, daR es tatsachlich keinen Unter- 
schied zwischen den MaRnahmen in der 
Population gibt (also die Differenzen aller 
Populationsparameterwerte exakt null sind) 
verschwindend gering bzw. uberhaupt null. Sie 
entspricht der Wahrscheinlichkeit, aus einer 
Urne mit unendlich vielen Kugeln (entspre- 
chend den unendlich vielen moglichen Aus- 



pragungsgraden auf den Parameterdimensio- 
nen) genau eine vorher prognostizierte Kugel 
zu ziehen. DasAuftreten einessignifikanten Er- 
gebnisseshangtdaherim wesentlichen von der 
Trennscharfe des Vorgangs ab, also insbeson- 
dere von der Genauigkeit der M essung und der 
Anzahl der herangezogenen Versuchspersonen. 
Mit steigender StichprobengroRe fuhren auch 
immer kleinere Unterschiede zwischen den zu 
evaluierenden MaRnahmen zu einem signifi- 
kanten Resultat. 

Im Bereich der (psycho I ogischen) Grundla- 
genforschung ist dieses Phanomen deswegen 
nicht allzu gravierend, weil aus Grunden des 
Aufwandesmeist nur einesehr kleineZahl von 
Proban den untersucht werden kann, so daR in 
einer an sich statistisch nicht vertretbaren, aber 
praktisch plausiblen SchluRweise von einer Si- 
gnifikanz (unter der Nebenbedingung eben 
kleiner Stichproben) auf das Bestehen eines 
nicht unerheblichen Unterschiedes zwischen 
den Versuchsgruppen indirektgeschlosen wer- 
den kann. Da aber bei zahlreichen Evaluations- 
projekten die Stichproben sehrgroB sind (man 
denke etwa an die vielen hundert Schuler bei 
Schulvergleichsuntersuchungen Oder die ubli- 
cherweise 1000 bis 2000 Person en umfassen- 
den Umfragen fur Ruckschlusse auf allgemein 
wirksame MaRnahmen wie etwa Aufklarungs- 
oder Werbekampagnen) werden auch viele 
sachlich irrelevante Unterschiede «sehr hoch 
sign ifi kant». Die statistische Signifikanz kann 
in solchen Fallen nur eine notwendige Bedin- 
gung (wenn der Effekt nicht einmal gegenuber 
zufalligen Unterschieden gesichert ist, sollte 
man ihn nur auRerst vorsichtig interpretieren) 
aber niemals als hinreichend verstanden wer- 
den. Fur ausfuhrlichere Darstellungen zum Si- 
gn ifi kanz-Testen vgl. etwa ClauR und Ebert, 
1972; Siegel, 1956. 



Interpretation deskriptiver Kennzahlen 

Um unabhangig bzw. erganzend zur zufalls- 
kritischen Absicherung deskriptive Aussagen 
uber die Starke der nachgewiesenen Effekte er- 
halten zu konnen, wurden in der Statistik ver- 
schiedene MaRzah I en entwickelt, die aber auch 
zumTeil Probleme mit sich bringen, wenn man 
sie falsch anwendet Oder unzulasig interpre- 
tiert (s. dazu Stelzl, 1982). 
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Auch bzgl. dieser Kennziffern bestehen gele- 

gentlich erhebliche Interpretationsunsicher- 

heiten. Um nur2 Beispiele herauszugreifen: 

• Ein t-Wert von 2,0 Oder 3,0 gilt schon als 
«massives» Ergebnis; tatsachlich ist aber 
selbst dann die Uberschneidung zwischen 
den beiden verglichenen Gruppen betracht- 
lich (s. Wottawa, 1981). Wieman dort sieht, 
sind auch «sehrhoch signifikante»Ergebnisse 
mitganz massiven Uberlappungen behaftet, 
so da8 eine Verallgemeinerung desgesicher- 
ten Mittelwertunterschiedesauf Unterschiede 
der Einzelpersonen nur sehr bedingt erfol- 
gen kann. Das Ergebnis darf dann nicht lau- 
ten «Die Angehorigen der Gruppe A zeigten 
hohere Wertealsdieder Gruppe B» sondern 
«Der Mittelwert der einen Gruppe ist hoher 
alsderderanderen». Esist manchesmal nicht 
ganz einfach, den Auftraggeber (oder bei poli- 
tisch relevanten MaBnahmen gardieinteres- 
sierte Offentlichkeit) auf die fur praktische 
Bewertung von Ergebnissen nicht unerheb- 
lichen Unterschiede dieser beiden Formulie- 
rungen hinzuweisen und den Sachverhalt 
aufzuklaren. 

• Selbst so vertraute MaBe wie die Korrelation 
machen erhebliche Schwierigkeiten; man 
denkean das Problem, einem sozialwissen- 
schaftlichen Laien klarzumachen, warum der 
gleiche Sachverhalt einmal mit einer Korre- 
lation von 0,7 (fur den Laien: «Uber Zwei- 
d ri ttel ») , das andere Mai mit einem Be- 
stimmtheitsmaB von 0,49 («weniger als die 
Halfte») beschrieben wird Oder was eigent- 
lich der Begriff «Varianzaufklarung» bedeu- 
tet. Methodisch interessanter ist die M ogl ich- 
keit, insbesondere multiple Korrelationen 
(oder BestimmtheitsmaBe) durch die Ver- 
wendungvon Mittelwerten anstellevon Ein- 
zeldaten in der Regressionsgleichung nahezu 
beliebig zu erhohen. Da bereits durch das 
bloBeAusmitteln von MeBfehlern bei einem 
solchen Vorgehen die Varianz der abhangi- 
gen Variablen stark reduziert wird, konnen 
dabei Korrelationen in der GroBenordnung 
der Testrel iabi I itat (auf der Basis der Einzel- 
personen berechnet!) auftreten, ein Beispiel 
dieser Art findet sich etwa bei dem Kon- 
fluenzmodell (Zajonc, 1979). Bei diesem wird 
die I n tel I i gen z auf Grund der Familien- 
konstellation vorhergesagt (vor allem durch 



Uberlegungen uberdieunterschiedlich i n tel - 
lektuelle Anregung eines Einzelkindes, des 
zweiten, in die Familie hinzukommenden 
Kindes usf., unter Beachtung der Altersab- 
stande). Auf dieser Basis konnte ein Modell 
erarbeitet werden, desen Vorhersagen mit 
den Testwerten zu 0,94 korrelierte, was uber 
der erwartbaren Testrel iabi I itat liegt. Die Er- 
klarung dafur ist, daB die Daten von fast 
400 000 Rekruten verrechnet wurden und 
das Modell nicht fur Einzeldaten, sondern 
fur die Mittelwerte der Kombinationen von 
FamiliengroBe und Geburtsreihenfolge Vor- 
hersagen leistet. Jeder der 35 «Datenpunkte» 
faBte also die Werte von Tausenden Einzel- 
beobachtungen zusammen, was die Fehler- 
varianz entsprechend stark reduziert. Auf die- 
ser Basis gewonnene Korrelationen werden 
mit steigender StichprobengroBe nicht aus- 
sagekraftiger, sondern verlieren im Gegensatz 
zur Anschauung gerade mit hoheren Fall- 
zahlen immer mehr Wert als Ausdruck der 
Effektstarke eines Phan omens Dieses eigent- 
lich el emen tare statistische Phan omen ist fur 
die Evaluationsforschung deswegen von be- 
sonderer Bedeutung, da dort meistens MaB- 
nahmen auf der Basisvon M ittelwerten (etwa 
von Schulklassen odertherapeutischen Indi- 
kationsgruppen) bewertet werden und sich 
daher die Verwendung entsprechender 
Besti m mth ei tsmaBe auf d i eser G ru n d I age an - 
bietet. 

Neben dieser statistisch-technischen Effekte, 
diezu einer Fehlinterpretation meist im Sinne 
einer Uberschatzung der Aussagekraft der Stu- 
diefuhren, scheintdieVerarbeitung multivaria- 
ter Information Schwierigkeiten zu machen. So 
ist man zum Beispiel gewohnt, eine durchaus 
brauchbare Information uber eine Stichprobe 
durch ein MaB der Zentraltendenz, insbeson- 
dere den Mittelwert, zu erhalten. Esdominiert 
die (implizite) Vorstellung, daB sich die MeB- 
werte meistens irgendwie eingipfelig, wenn 
schon nicht unbedingt nach der GauB-Vertei- 
lung (diejaausdiesen Grunden auch «Normal- 
verteilung» genannt wird) um diesen Wert 
herum gruppieren. Diese Vorstellung stimmt 
schon im univariaten Fall oft nicht (so ist zum 
Beispiel der Mittelwert bei extrem zwei- 
gipfeligen Verteilungen besonders weit von al- 
ien tatsachlich gefundenen MeBwerten ent- 
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fernt), vollig unubersichtlich wird esim multi- 
variaten Fall. Als Anschauungshilfe werden ge- 
legentlich optische Darstellungen verwendet, 
etwa die «Cherkoff-Gesichter». Diessind einfa- 
che Strichzeichnungen, die Auspragungen der 
Einzelheiten (etwa der Augenabstand, die Au- 
gengroRe, Krummung des Mundwinkels etc.) 
entsprechen den Auspragungsgraden der ein- 
zelnen Variablen (siehe dazu etwa Daumen- 
fang, 1984). Solche Darstellungen konnen 
Fehlinterpretationen, etwa bezuglich der Be- 
schreibungsgute (die oft uberschatzt wird) 
einer Stichprobe durch das multivariate 
M ittelwertsprofil, vermeiden helfen. 

Leider ist esrelativ leicht, die mit den einzel- 
nen MaRen der Effektstarke verbundenen Pro- 
blemeaufzuzeigen; viel schwieriger ist es, posi- 
tive Empfehlungen zu geben, da jede dieser 
Kennziffern ihre Vor- und Nachteile hat. Es 
bleibt nur, die jeweiligen Besonderheiten fur 
das konkrete Projekt abzuwagen und vor allem 
durch vorbereitende Information zu versuchen, 
bei den «Abnehmern» der Ergebnisse wenig- 
stensein wenig Verstandnisder Interpretations- 
schwierigkeiten zu erwecken, was alierdings in 
keiner Weiseeinfach ist. 



Meta-Analysen 

Die im Abschnitt 5.2 dargestellten Schwierig- 
keiten von wirklich aussagekraftigen Evaluations- 
projekten lassen es in diesem Forschungsfeld 
besonders wichtig erscheinen, die Ergebnisse 
(gerade in Form der Effektstarken) moglichst 
vieler verschiedener Studien zu einer Global- 
aussage zusammenzufassen. Dies setzt die Ein- 
haltung bestimmter methodischer Vorgehens- 
weisen voraus Ausfuhrliche Darstellung dieser 
Techniken finden sich bei Frickeund Treinies, 
1985. Fur den psychologisch-sozialwissenschaft- 
lichen Bereich besonders interessante Ergebnisse 
von Meta-Analysen geben Flunteretal. (1982), fur 
dieWirkung von Psychotherapien Grawe(1990). 

ZusammenfassendeAuswertungen dieser Art 
ersetzt naturl ich nicht die Detailarbeit in den 
einzelnen Evaluationsprojekten, sind abereine 
wertvolleund unverzichtbareGrundlagefur all- 
gemeine Empfehlungen. Es ware anzustreben, 
daft allepublizierten Evaluationsprojektediefur 
eine sachgerechte Aufarbeitung in Meta-Analy- 
sen erforderlichen Angaben in zusammengefaR- 



ter, ubersichtlicher Form geben, um diespatere 
Zusammenfassung in dieser Form zu erleichtern. 

5.3.2 Auswertungsverfahren auf 
der Basis allgemeiner linearer 
Modellansatze 

Mochte man mehr als einfache Gruppen- 
vergleiche auf der Basis elementarer Effekt- 
starken, wird im sozialwissenschaftlichen Be- 
reich fur die Analyse von Strukturen in den 
gefundenen Daten meistauf Spezialfalledesall- 
gemeinen linearen Modellszuruckgegriffen. (s. 
etwa Rochel, 1983 Oder Moosbrugger, 1978). 
Auf den ersten Blick sind diese Ansatze nicht 
nur beliebt, sondern auch sachlich sinnvoll, da 
sie in einfacher Wei se auch die Erfassung kom- 
plexerSachverhaltermoglichen. Speziell fur die 
Evaluationsforschung, aber nicht nur dort, ist 
mit diesem Ansatz aber auch eine Reihe von 
Schwierigkeiten verbunden: 

• Diese Modellform ist populationsabhangig 
(im Sinne feh lender Teilgruppenkonstanz, 
vgl. Wottawa, 1987). 

• Die Ergebnisse konnen nur deskriptiv, nicht 
funktional interpretiert werden. 

• Das Modell ist stetsals Einheit zu sehen, das 
Flerausgreifen von Teilergebnissen ohne Be- 
achtung des Gesamtrahmens ist nicht zulas- 
sig. 

Populationsabhangigkeit 

Das Problem der Populationsabhangigkeit wur- 
de insbesondere im Zusammenhang mit der 
Faktorenanalyse diskutiert (vgl. dazu Fischer, 
1974), trifft aber in gleicher Weisefur alle An- 
satze des allgemeinen linearen Modellszu. Da 
dieModellgultigkeitimmerfureine vorgegebe- 
ne Population (aus der der speziell ausgewerte- 
te Datensatz als Stichprobe genommen ist) 
postuliert wird, ist eine Ubertragung der Mo- 
del I ergebnisse auf Tei Igruppen daraus nicht zu- 
lassigund wurdezu masiven Fehleinschatzun- 
gen fuhren. 

Wieweit dieses Problem fur die Evaluations- 
forschung stort, hangt davon ab, ob sich die 
evaluativ untersuchten MaRnahmen auf Ein- 
zelpersonen (dieja immer Teile einer Popula- 
tion sind) bezieht Oder ob vordefinierte, sach- 
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I ich sinnvolle Populationen den MaRnahmen 
ausgesetzt werden. Interessiert man sich etwa 
im Rahmen einer padagogisch-psychologischen 
Fragestellung fur die Zusammenhangsstruktur 
verschiedener EinfluRgroRen bei Hauptschu- 
lern im Gegensatz zu Realschulern (Hesse, 
1982), so ist die Population der jeweiligen Schu- 
lerschaft durch Sachaspekte definiert. Mochte 
man diese Population alsganze weiter untersu- 
chen, etwa mit dem Ziel der Evaluation von 
MaRnahmen, die eine als nicht optimal er- 
scheinende Zusammenhangsstruktur zwischen 
Variablen gunstig beeinflussen sollen, sind 
entsprechende pfadanalytische Oder LISREL- 
Modelle u.U. sehr nutzlich. Gleiches gilt fur 
Vergleiche zwischen verschiedenen Populatio- 
nen. So konnte etwa Hesse in der oben zitier- 
ten Arbeit deutliche strukturelle Unterschiede 
zwischen Haupt- und Realschule nachweisen. 
Vergleich bar sind vieleFragestellungen ausdem 
sozialwissenschaftlichen Bereich, in denen die 
«Populationen» Parteien, Verbanden, Industrie- 
betrieben Oder sogar ganzen Staaten entspre- 
chen. Typische Gegenbeispiele finden sich im 
Bereich der Einzelfallintervention (zum Beispiel 
bei psychologischen Therapietechniken Oder 
padagogischen MaRnahmen). Zeigt sich etwa 
ein furdieBewertungder Evaluationsergebnisse 
wichtigerZusammenhang zwischen I n tel I i gen z 
und Lernsteigerung durch die MaRnahme, 
kann dieserjenach Definition der«Population» 
fur die Modellanwendung nahezu beliebig ma- 
nipuliert werden. Wahlt man als Population 
eineGruppevon Schulern mitrelativahnlicher 
Intelligenz, wird auch ein «an sich» starker 
Zusammenhang als Folge der Reduktion der 
true-score-Varianz bei gleichbleibender Fehler- 
varianzin den Zusammenhangskennziffern na- 
hezu verschwinden; wahlt man eine«Populati- 
on» zum Beispiel aus zwei Extremgruppen 
(besonders hoch- bzw. niedrig-intelligente 
Schuler), wird wegen derdann erfolgten massi- 
ven Erhohung der Varianz der true-scores bei 
sonstgleichem Sachverhalteinewesentlich bes- 
sere Model lanpassung resultieren. 



Deskription, nicht Funktionsanalyse 

Diese Populationsabhangigkeit ist auch einer 
der Grunde, warum Auswertungen auf der 
Grundlage des linearen Modells nur deskriptiv 



(fur die Population), aber nicht fun ktional ver- 
standen werden konnen. Sohangtzum Beispiel 
das Verhalten eines Klienten wahrend eines 
Therapieverlaufes in keiner Weise davon ab, 
welche anderen Patienten irgendwann einmal 
mit seinen Daten gemeinsam fur die Projekt- 
auswertung verrechnet werden. Trotzdem wird 
je nach Zusammensetzung der Daten fur die 
Auswertung ausdem im vorigen Absatz darge- 
stellten Grunden einmal die Beziehung zwi- 
schen emotionaler Befi ndl ichkeit und Dauer 
der Therapie sehr eng sein, dasandere Mai ver- 
schwindend gering. G leiches gilt fur verwandte 
Verfahren, etwa auch fur die Faktorenanalyse. 
Da dieZahl der fur die Beschreibung der Ergeb- 
nisse sinnvollerweise erforderlichen Faktoren 
ebenfallsvon einer Populationsdefinition ab- 
hangt, ist die «lntelligenz» Oder «Personlich- 
kei t» eines Menschen je nach der durch den 
Untersucher willkurlich zu setzenden Popula- 
tionen einmal durch sehr vi el e Faktoren zu be- 
schreiben (bei homogenen Gruppen), das an- 
dere Mai genu gen wesentlich weniger (bei 
heterogen en Populationen). Diese Artefakte 
machen es auch unmoglich, solche (linearen) 
Auswertungen alseineausreichende Grundlage 
fur Prognosen fur Veranderungen von Einzel- 
fallen abzuleiten (wahrenddem es durchaus 
moglich ist, durchschnittliche bzw. gruppen- 
bezogene Veranderungen halbwegs sicher in 
Trend berechnungen auf der Basis von Regres- 
sionsgleichungen vorherzusagen). 

In manchen Evaluationsprojekten ist man in 
besonderer Weise auf funktionale Modelle fur 
Einzelfalle angewiesen. Beispiele dafur sind 
etwa formative Evaluationen von Uber- 
wachungs-oder Steuerungsanlagen (wo die In- 
formationsverarbeitung bzw. sensomotorische 
Koordi nation des Bedieners mogl ichst exakt zu 
modellieren ware) und bei anderen ergonomi- 
schen Fragestellungen, zum Beispiel der Opti- 
mierung von Computersoftware. Fur Steue- 
rungsein rich tun gen haben sich insbesondere 
Modelleauf der Basisder regel ungstechnischen 
Ansatzebewahrt, diezu einer Beschreibung des 
Verarbeitungsprozesses auf der Basis von Diffe- 
rentialgleichungsmodellen fuhren (fur An- 
wendungsfalle in der mathematischen Soziolo- 
giesiehe etwa Coleman 1956). Beispiele fur die 
funktionale EDV-Modellierung von relevanten 
Widens- bzw. Denkstrukturen finden sich bei 
Kleinmuntz, 1963; 1972. 
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Kontextabhangigkeit 

Eine selbst bei sachgerechter Losung der ersten 
beiden ProblempunkteverbleibendeSchwierig- 
keit fur die Interpretation dieser beliebten 
Gruppe von Auswertungsverfahren ist das Fak- 
tum, dalS alleM odell parameter (also alleAussa- 
gen uberdieBeziehungen zwischen den einzel- 
nen Variablen) im Kontext desGesamtmodells 
zu sehen sind. Man kann also etwa aus einer 
pfadanalytischen Oder auf LISREL aufbauenden 
Auswertung nicht einen einzelnen Parameter- 
wert fur eineTeilbeziehung innerhalb des Mo- 
del lesherausgreifen und diesdann alsErgebnis 
darstellen; welches (3-Gewicht zwischen den 
Variablen A und B bei der Schatzung der 
Model I parameter aus den empirischen Daten 
herauskommt, hangt ganz wesentlich von den 
ubrigen in die Untersuchung aufgenommenen 
Variablen ab und kann bei einer Anderung die- 
ser Variablen men ge nicht nur im AusmaR, son- 
dern sogar im Vorzeichen variieren. Auf die da- 
mit verbundenen Probleme hinsichtlich von 
Reihenfolgeneffekten von Variablenaufnahmen 
bzw. Variablenselektion bei Regressionsan- 
satzen und nicht-orthogonalen varianzanaly- 
tischen Planen verweist zum Beispiel Rochel, 
1983. Dieses Faktum ist im ubrigen nicht un- 
bedingt eine Schwache dieses besonderen 
Auswertungsverfahrens, sondern ergibt sich 
zwangslaufig aus der inkrementellen Struktur 
der einzelnen Parameter. Der zusatzliche Bei- 
trag eines Effektes hangt eben auch empirisch 
davon ab, welche anderen Effekte kontrolliert 
werden. Aber: Wie vermittelt man einem Auf- 
traggeber, daR ein wichtiger, kostenintensiver 
Aspekt seiner MaRnahme (als Beispiel etwa die 
GroRe von Schulklassen) sich je nach Aus- 
wertungskontext im AusmaR und evtl. sogar in 
der Richtung unterschiedlich auswirkt? 

Neben diesen kritischen Aspekten muR man 
aber auch betonen, daR es fur eine einfach 
handhabbare, keine komplizierten Entwick- 
lungsarbeiten erfordernde Auswertung multi- 
pier Zusammenhangsstrukturen derzeit eigent- 
lich keine praktikable Alternative zu den 
verschiedenen Spezialfallen desallgemeinen li- 
nearen Modells gibt (auf zumindest partiell 
konkurrenzfahige konfigurale Ansatze wird im 
nachsten Abschnitteingegangen). Diehiersehr 
pointiertdargestellten Kritikpunktesollen auch 
in keiner Weise Auswertungsansatze dieser Art 



abwerten. Man muR nur bei der Detailplanung 
seines Evaluationsprojektes wissen, ob sach- 
immanenteGrundeoder die WunschedesAuf- 
traggebers zum Beispiel die Erarbeitung funk- 
tionaler Modelle erzwingen und in solchen 
Fallen die dann notwendigen Vorarbeiten 
rechtzeitig einkalkulieren und auch bedenken, 
daR die Gewinnung fur solche Spezialent- 
wicklungen ausreichend kompetenter Mitarbei- 
terein nicht unerhebliches Problem sein kann. 
Schlechtsind nicht die linear-statistischen Aus- 
wertungsverfahren an sich, sondern deren Fehl- 
anwendung bzw. Feh I interpretation, die ver- 
mutlich gar nicht selten auf eine mangelnde 
Problemsicht des Untersuchungsleiters in der 
Planungsphase, wo sich noch alternative Lo- 
sungskonzepte hatten realisieren lassen, zu- 
ruckgehen durften. 

5.3.3 Qualitative 
Auswertungsverfahren 

Mit diesem Begriff werden verschiedene Aus- 
wertungsstrategien angesprochen, die eigent- 
lich nur gemeinsam haben, daR sie weniger 
stringente Anforderungen an das MeRniveau 
stellen und in besonderer Weise zu verbalen 
Interpretationen kompatibel sind. 

Im wesentlichen lassen sich drei oft ge- 
brauchte Begriffsbedeutungen unterscheiden: 

• «qualitativ» meint im Gegensatz zu «quanti- 
tativ» statistische Verfahren, die nur auf No- 
minalsskalen aufbauen; Beispiele sind etwa 
die Konfigurationsfrequenzanalyse (Krauth 
& Lienert, 1973), die MethodeGUFIA (Hajek 
& Havranek, 1978), HYPAG/SEARCH (s. Wot- 
tawa, 1978; 1987) und TYPAG (Flollmann, 
1991) 

• «qualitativ» ist dieArt der Datenauswertung, 
weil keine statistisch-numerischen Verfah- 
ren, sondern EDV-gestutzte Strukturierungs- 
hilfen eingesetzt werden; hierunter fallen 
etwa EDV-gestutzte Verfahren der Inhalts- 
analyse Oder die sog. Plan-Anal yse (Grawe & 
Caspar, 1984). 

• «qualitativ» ist der Verzicht auf alle zahlen- 
den bzw. rechnenden Verfahren, esverblei- 
ben subjektive Interpretationen und Ver- 
stehenserlebnisse, etwa vergleichbar mit der 
Interpretation von Kunstwerken (s. etwa 
Dilthey, 1896). 
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Konfigurale Techniken 

Diese Auffassung ist naturlich die den im 
vorhergehenden Abschnitt besprochenen 
Verfahren am ahnlichsten. Essind statistische 
Auswertungstechniken, die nicht auf eine ma- 
thematisch-quantitative Beschreibung von Zu- 
sammenhangsstrukturen ausgerichtet sind, 
sondern eigentlich nur Konfigurationen in den 
Daten (also Kombinationen verschiedener 
Merkmalsauspragungen auf Nominalskalen) 
aufbauen . 

Ein erheblicher Vorteil gegenuber den linea- 
ren Techniken ist bei diesen Ansatzen, daft die 
gefundenen Konfigurationen strukturgleich 
mit» wenn -dan n-Satzen» sind (vgl. dazu die 
Ausfuhrungen im Diagramm IV/ 7). Esentspricht 
dem normalen Argumentieren, daft «ein be- 
stimmtes Ereignisdann zu erwarten ist, wenn 
die eine Bedingung und die zweite Bedingung 
und/oder dritte Bedingung gegeben ist», und 
dies entspricht unmittelbar den darausfolgen- 
den Datenkonfigurationen; im Gegensatz dazu 
ist esaufterordentlich muhsam, etwa eine mul- 
tiple Regressionsglei chung aus den drei ge- 
nannten Bedingungsvaribalen zur Vorhersage 
desEreignisses verbal darzustellen, dainsbeson- 
dere die zahlreichen Kompensationsmoglich- 
keiten bei den verschiedenen quantitativen 
Auspragungsgraden der Variablen sich so gut 
wie nicht in normaler menschlicher Sprache 
darstellen lassen. Damit hangtauch derweitere 
Vorteil zusammen, daft zwar die Gute der Er- 
gebnisse insgesamt (also zum Beispiel wieviele 
Kombinationen mit welchen Vorhersage- 
moglichkeiten aufgetreten sind) ebenfallsvon 
der Populationsdefinition und der Mengeder 
fur die Untersuchung aufgenommenen Varia- 
blen abhangt (vergleichbar mit den entspre- 
chenden Problempunkten bei dem allgemeinen 
linearen Modell), jede einmal erarbeitete Aus- 
sage in Form eines «wenn-dann-Satzes» aber 
unmittelbar fur jeden dadurch erfaftbaren Ein- 
zelfall formuliert ist. Die Probleme der Popu- 
lationsabhangigkeit verlagern sich dadurch von 
der Einzelfallformulierung auf die Heuristik, 
also darauf, welch e Variablen etwa bei Such- 
vorgangen in Datensatzen als besonders rele- 
vant erscheinen. Dies ist daher keine endgul- 
tige Losung fur dieses Problem, aber doch eine 
gerade fur einzelfallorientierte Intervention 
und Evaluation wesentliche Verbesserung (vgl. 



fur diese Art «qualitativer» Verfahren Henning 
und Kemnitz, 1986). 

Der entscheidende Nachtei I aller dieser Ansatze 
ist aber, daft ausGrunden der Ubersichtlichkeit 
voralleminduktive Verfah ren f u r seh r kompl exe, 
zahlreiche Variablen gleichzeitig berucksich- 
tigende Auswertungen selbstdann ungeeignet 
sind, wenn die in diesem Fall astronomisch ho- 
hen Rechenzeiten bewaltigbar waren. Furuber- 
schaubare Variablensatze (oder solche, die sich 
ohne Schaden fur das Gesamtprojekt in ent- 
sprechend kleine Subgruppen zerlegen lassen) 
konnen daher diese Ansatze als ernsthafte Al- 
ternative gegenuber dem allgemeinen linearen 
Modell empfohlen werden, fur die Deskription 
sehr grofter Variablen men gen bleibt die tradi- 
tionelleAuswertungsmethodetrotz aller Schwa- 
chen aberauch weiterhin unverzichtbar. 



Strukturierungshilfen 

Die zweite der genannten «qualitativen» Ver- 
fah ren sgruppen sind Ansatze, bei denen kom- 
plexes Material EDV-gestutzt ausgewertet bzw. 
strukturiert wird. Hierzu gehoren viele Verfah- 
ren der Inhaltsanalyse, sofern sie uber ein f ache 
Auszahlungen von Worthaufigkeiten hinausge- 
hen (s. etwa bei Rust, 1983). Gerade fur die 
Auswertung von offenen Interviews, etwa bei 
der Bewertung von Maftnahmen im Bildungs- 
oderTherapiebereich durch unmittelbar betrof- 
fene Probanden, konnen damit interessante 
Einblick erarbeitet werden. Oft istesauch mog- 
lich, darauf aufbauende quantitative Auswer- 
tung anzuschlieften. 

Qualitative Strukturierungshilfen sind noch 
weniger verbreitet. Ein Vorgehen dabei ist die 
(teil-)formalisierte Darstellung von subjektiven 
Theorien, etwa SLT Oder HYPAG/Structure(vgl. 
Diagramme IV/ 6 und IV/ 7). Gerade bei Weiterbil- 
dungsmaftnahmen kann die Veranderung der 
subjektiv von den Teilnehmern gesehenen Zu- 
sammenhange bzw. moglichen Handlungs- 
planeein wichtiger Hinweis auf den Erfolgder 
Maftnahme sein, ein Beispiel unter Verwen- 
dung dieser Technik gibt Wottawa und Hof, 
1987. EDV-gestutzte Strukturierungshilfen kon- 
nen die ubersichtliche Darstellung komplexer 
Sachverhalte, gerade auch bei Interview-Aus- 
wertu n gen , seh r erl ei ch tern . 
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Ein besonders eindrucksvolles Beispiel dafur 
ist die Plan-Analyse (Grawe und Caspar, 1984), 
dievor allem fur Anwendungsfalleausdem Be- 
reich der Therapie und Therapie-Evaluation 
entwickelt wurde. DieGrundideedabei ist, daR 
komplexeStrukturen (zum Beispiel Handlungs- 
plane, das Verfahren lalSt sich aber naturlich 
auch auf jede andere Art von Strukturbezie- 
hungen anwenden) dadurch ubersichtlicher 
gemacht werden, daR vom Untersucher dieje- 
weils paarweisen Beziehungen erarbeitet wer- 
den und dasProgramm dabei hilft, darauseine 
nachvollziehbare Gesamtstruktur (etwa in 
Form hierarchischer Entscheidungsablaufeoder 
Organisationsstrukturen) aufzubauen. Ansatze 
dieser Art konnen einesehr wertvolleHilfesein, 
um die Erfassung und insbesondere die uber- 
sichtliche Presentation komplexer Befunde in 
qualitativ orientierten Evaluationsstudien zu 
beschreiben. Siesollten aber wegen der relati- 
ven Will kurl ich keit immer nur heuristisch-for- 
mativ, nicht als endgultig-summatives Ergeb- 
nisdargestellt werden. 

Da die notwendigen technischen Hilfen, ne- 
ben den EDV-Programmen auch die Einschu- 
lung in ihre sachgerechte Nutzung, bei quali- 
tativen Verfahren noch wesentlich weniger 
verbreitet sind als fur quantitativ-statistische 
Methoden, sollte vor der endgultigen Fest- 
legung solcher Auswertungsmethoden in der 
Planungsphase die Verfugbarkeit entsprechen- 
der Ressourcen gesichert sein. Auch muR der 
Arbeitsaufwand relativ hoch veranschlagt wer- 
den, und insbesondere ist er nicht delegierbar. 
Der vorwiegend inhaltlich-wissenschaftlich 
ausgerichtete Projektmitarbeiter kann fur die 
rei n stati sti sch e Daten an al yse di e en tsprechen - 
den Arbeiten (weitgehend) an Spezialisten de- 
legieren, qualitativeAuswertungsverfahren set- 
zen aber eineengeAbstimmung zwischen dem 



inhaltlichen und dem methodischen Vorgehen 
voraus. 



Verstehen 

Der im strengsten Sinn «qualitative» Ansatz ist 
ein rein verstehend-interpretatorisches Vorge- 
hen. Diese Methodik ist in vielen geisteswis- 
sen sch aftli chen Bereichen unverzichtbar, etwa 
bei der Interpretation von Kunstwerken Oder 
Gedichten, dort wurden auch Arbeitstechniken 
dazu entwickelt. Fur die empirische Evalua- 
tionsforschung ist dieses Vorgehen aber von 
untergeordneter Bedeutung, man wurde zo- 
gern, ein solches Projekt zum Beispiel nur auf 
einer verstehenden Beschreibung einiger Tie- 
fen interviews aufzubauen. Auch zeigen Erfah- 
rungen im Bildungsbereich, daR dieoffentliche 
Akzeptanz rein beschreiben der Arbeiten gering 
ist. 

Trotzdem kann bei vielen Projekten nicht auf 
eine subjektiv-spekulative Interpretation ver- 
zichtet werden, vor allem bei formativen Eva- 
luationen. Eswareunvertretbar, dieoftfeststell- 
baren, wenn auch zunachst nicht geplanten 
und daherauch nicht quantitativerfaRten H i n- 
weiseauf Optimierungsmoglichkeiten nur des- 
halb nicht zu nutzen, weil man dafur keine 
Auswertungsstatistiken vorlegen kann. Man 
sollte aber solchepersonlichen Eindrucke, Mei- 
nungen und Vorschlage deutlich als solche 
kennzeichnen und nicht den Eindruck erwek- 
ken, sieseien durch objektivierbare Fakten ab- 
gesichert. Manchesmal ist es zur Vermeidung 
solcher MiRverstandnisesogar beser, Flinweise 
auf dieser Grundlage nur in einem person- 
lichen Gesprach mit dem Auftraggeber weiter- 
zugeben und nicht in den offiziellen Bericht 
aufzunehmen. 
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Ubersicht Kapitel 5: 

Planung von Evaluationsprojekten 



5.1 

Projektmanagement 



Wichtige Informational im Vorfeld oderzu Beginn des Projektes: 
Informational uber Rahmenbedingungen 



Erstellung einesArbeitsplans 
Zeit- und Kostaiplan 

Informational zu Projektdetails 
u. Rahmenbedingungen 

• Geschaftsberichte, Veroffent- 
lichungai in Zeitschriftai 

• PersonlicheKontaktemitdem 
Auftraggeber etc. 



Wichtige PunktedesArbeitsplans 

• Arbeitsschritte in zeitlicher 
Reihenfolge planen, Aufwand der 
Schritteeinplanen 

• ExakteTerminangaben, 
«Deadlines» 

• FinanzielleAufwendungen 

• Entscheidungspunkte mit 
Auftraggeber kiaren 

• Auflistung allerzu erbringenden 
Leistungen Oder in Auftrag 
gegebenen Arbeiten 



Zeit- und Kostenschatzung 

Struktur- und Zeitanalyse 
Ziel: 

• ZerlegungdesGesamtprojektesin 
Einzelschritte und Ermittlung der 
Dauer dieser Schritte 

H i I fstech n i ken 

• Balken- und Netzplantechnik 

• Entscheidungsbaumverfahren 



5.2 

Designfragen 

Fehlaquellen: Reifung, Nicht-Aquivalenz von Vergleichsgruppen, Mortalitat im statistischen Sinne 



Untersuchungsplane 

Quasi -Experimentelle Designs 

• gunstig in Evaluationsstudien 

Echte Experimentelle Designs 

• in Evaluationsstudien kaum 
anwendbar 

«Sonderfall» Qualitatsmanagement 

• gunstig, um vertraglich zugesagte 
Leistungen zu iiberprufen 

• keineRiickschlusseauf Kausal- 
ursachen moglich! 



Datenerhebungsverfahren 

• PsychologischeTests 

• Fragebogen 

• Verhaltensbeobachtung 

• Offeneoderteilstrukturierte 
Interviews 



5.3 

Auswertungsverfahren 

Unterscheidung Sequentialstatistik Oder feste StichprobengroRe 



Effektstarke 

sinnvoll fureinfachen 
Gruppenvergleich 

• Beispiel: NormierteSkalenwerte 

• Problem: Signifikant* Relevant 



Allgemeines Lineares Mode) I 

sinnvoll bei komplexer Situation 

• Problem: Populations- und 
Ko n t extab h an gi gkei t 

• Deskription, nicht 
Funktionsanalyse 



Qualitative Auswertungsverfahren 

sinnvoll bei wenig stringenten 
Anforderungen an dasMeRniveau 

• Beispiel: KonfiguraleTechniken 

• Strukturierungshilfen 

• Verstehen (Hermeneutik) 
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6. Durchfuhrung von Evaluationsstudien 



Je sorgfaltiger die Planungsarbeiten durchge- 
fiihrt wurden, um so weniger prinzipielle Pro- 
bleme wird die Durchfuhrung des konkreten 
Projektes machen. Trotzdem ware es eine Illu- 
sion, aulSerhalb von sehr kleinen und Ciber- 
schaubaren Projekten von einer reibungslosen 
Durchfuhrung auszugehen. Zumindest bei lan- 
gerfristigen Vorhaben sind Schwierigkeiten im 
Bereich der Organisation zu erwarten, typische 
Beispiele und MalSnahmen fur deren partielle 
Behebung werden im Abschnitt 6.1 diskutiert. 
Weniger mit Unsicherheiten behaftet ist die 
sachgerechte Durchfuhrung der Auswertungs- 
arbeiten, doch mulS man auch dort auf eine 
sorgfaltige Fehlerkontrolle und die Einhaltung 
der Vertraulichkeits- bzw. Datenschutzbestim- 
mungen achten. Bei aller Muheaber nicht ver- 
meidbar ist das prinzipielle Problem, daft von 
der unubersehbaren Vielzahl der denkbaren 
Auswertungen nur ein kleiner Teil erfolgen 
kann und dieseAuswahl stetsmitdem Vorwurf 
von «Manipulation» rechnen mulS. Fragen die- 
ser Art werden im zweiten Abschnitt dieses Ka- 
pitelsbesprochen (6.2). 

Am SchlulS des Evaluationsprojektessteht meist 
eineschriftliche, oftdurch einemundlichePra- 
sentation erganzte Berichtlegung an den Auf- 
traggeber, ggf. auch an andere Instanzen (zum 
Beispiel Offentlichkeit, Schulleiter). Die damit 
verbundenen Darstellungs- und Kommunika- 
tionsprobleme werden von Akademikern ohne 
einschlagige Erfahrung oft unterschatzt. Man 
lebt innerhalb einer universitaren Bezugs- 
gruppe in einem fur AulSenstehende schwer 
nachvollziehbaren Abstraktionsniveau, einer 
fachspezifischen Begriffsbildung (die leider 
nicht nur manchmal unverstandlich ist, son- 
dern auch zu M ilSverstandnissen bei «Laien» 



fiihren kann), und dievorallem im wirtschafts- 
nahen Bereich sehr elaborierten Darstellungs- 
hilfen (Medien bei Vortragen, optische Auflok- 
kerung) werden an der Universitat nur selten 
in vergleichbar intensiver Weise gepflegt. H in- 
weisezu solchen Fragen gibt Abschnitt 6.3. 



6.1 Organisatorische Fragen 

Die wichtigsten Organ isationsproblemefinden 
sich im Bereich des Personals - sowohl bei den 
Projektmitarbeitern, alsauch bei Auftraggebern 
Oder anderen fur die Durchfuhrung erforderli- 
chen Kontaktpersonen (zum Beispiel Lehrer, 
Verwaltungsbeamte etc.). Zumindest fur die ei- 
genen Mitarbei ter kann man einige Schwierig- 
keiten vermeiden, wenn man rechtzeitig auch 
deren Einschulungsbedurfnisse und ihre per- 
sonlichen Interessen, zum Beispiel im H i nbl i ck 
auf ihreweitereberuflicheEntwicklung, bei der 
Projektplanung und der Personalfuhrung be- 
achtet (6.1.1). Daruber hinaus mulS man sich 
im klaren sein, dalS groGere Vorhaben nicht 
ohneexplizite Kontrolltechniken durchgefuhrt 
werden konnen, wenn man vermeiden will, 
dalS sich am Ende einer zum Beispiel zweijahri- 
gen Arbeitsphase nicht mehr behebbare Pro- 
bleme aufturmen und u.U. das ganze Projekt 
ergebnislos abgebrochen werden mulS. Einige 
Flinweise, dieeineentsprechend sorgfaltigeEin- 
arbeitung naturlich nicht ersetzen konnen, fin- 
den sich im Abschnitt 6.1.2. 

Nahezu alle Organisationsprobleme lassen 
sich losen, wenn man rechtzeitig an ihr Auftre- 
ten denkt, also eine (in den Evaluations-Begrif- 
fen gemalS Diagramm 11/ 2) «antizipatorische In- 
put-Evaluation» fur das eigene Projekt mit 
ausreichender Aussagekraft anstel It. 
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Bei aller Sorgfalt muft trotzdem davon ausge- 
gangen werden, daft sich zum Teil vorherseh- 
bare, zumTeil aber vollig uberraschende«Kata- 
strophen»ergeben, dieein bei aller Sorgfalt der 
Planungdoch sehrflexiblesKrisenmanagement 
erfordern. Einige Beispielefinden sich in 6.1.3. 

6.1.1 Fragen der Personalfiihrung 

DieVerhaltnissegestalten sich naturlich unter- 
schiedlich, je nachdem, ob ein Evaluations- 
projekt firmen- Oder klinikintern, durch Mitar- 
beiter eines M inisteriums, im Rah men der 
Aufgaben eines Universitatsinstituts Oder als 
Auftrag an ein privatwirtschaftlich organisier- 
tes I nstitut durchgefuhrt wird (vgl. Diagrammll/ 
5). In groften Firmen und bei offentlichen Ar- 
beitgebern gibt es meist bewahrte, langfristig 
festgelegte Formen der Personalfuhrung, so daft 
dort keine besonderen Probleme zu erwarten 
sind. Anders ist die Situation bei privaten 
(Klein-)lnstituten, die zwar einen erheblichen 
Arbeitsmarkt bieten (esgibt in der Bundesrepu- 
blik Deutschland einige hundert angewandt- 
forschende, sozialwissenschaftliche Institute), 
aber bezuglich der Personalfuhrung schon we- 
gen desgroftenbedingten Fehlensentsprechen- 
der Spezialisten (kein I nstitut mit vielleicht 5 
bis 10 Mitarbeitern kann sich einen eigenen 
Personalfachmann leisten) auf diesem Gebiet 
nicht das profession el I e Niveau grofterer Insti- 
tutionen erreichen. Gleichzeitig sind bei klei- 
nen Instituten die Folgen von Fehlern beson- 
dersgravierend, da Ausfallekaum durch andere 
M itarbeiter abgedeckt werden konnen . 

Aus der Sicht des Arbeitgebers lassen sich die 
storendsten Punkte wiefolgt beschreiben: 

• Es besteht ein aufterordentlicher Mangel an 
fachlich qualifiziertem Personal, das zum 
Zeitpunkt der Ubernahme eines neuen Pro- 
jektesauch tatsachlich zur Verfugung steht. 

• Der Arbeitsmarkt fur solche Spezialisten ist 
relativ klein, ein «Abwerben» von anderen 
Instituten wahrend dort laufender Projekte 
problematisch, und arbeitslose berufserfah- 
rene Krafte sind selten (umgekehrt kann es 
wegen dem kleinen Stellenmarktaberdurch- 
aus sein, daft auch gute Spezialisten einige 
Zeit brauchen, um eine neue Stelle zu fin- 
den). 



• Bei befristeten Projekten wird die Situation 
noch durch regionale Mobilitatseinschran- 
kungen erschwert, da viele Interessenten 
zogern, fur vielleicht nur ein Jahr uber gro- 
ftere Entfernungen hinweg den Wohnort zu 
wechseln. 

Eine Losung ware die rechtzeitige Einstellung 
und vorbereitende Einschulung von Anfan- 
gern. Es konnen sich aber nur wenige private 
Institute eine solche langfristige Personalpla- 
nung finanziell leisten, und uberdieswird die 
praktische Leistungsfahigkeit von Bewerbern 
unmittelbar nach Abschluft der akademischen 
Ausbildung skeptisch beurteilt, vielleicht nicht 
immer zu recht. 

Spezialisten unter den Mitarbeitern (insbe- 
sondereim EDV-Bereich) konnen bei langerfri- 
stigen Projekten eine erhebliche informelle 
Machtstellung erlangen, und zwar dann, wenn 
ihre Detailkenntnisse (zum Beispiel uber die 
Daten organisation) Oder ihre person lichen Be- 
ziehungen zu externen Stellen (zum Beispiel bei 
der Organisation einer Untersuchung mit zahl- 
reichen Kontaktpartnern aus wichtigen Klini- 
ken) entweder aus Zeit- Oder Kostengrunden 
nicht mehr von anderen ubernommen werden 
konnen (vorallem nicht im Konfliktfall). 

Noch schwieriger als fachlich-wissenschaft- 
lich gut ausgebildete M itarbeiter sind Bewerber 
zu finden, diedaruber hinausauch Projekt-Ma- 
nagementaufgaben (Abstimmung und Kontrolle 
der Teilarbeiten, Kontakte mit dem Auftrag- 
geber und den anderen kooperierenden Stellen, 
flexible Anpassung der Projektarbeit an gean- 
derte Situationen) eigenstandig ubernehmen 
konnen. Dies gilt ganz besonders zu den Kon- 
ditionen befristeter Projektstellen und der oft 
an dieVergutung im Offentlichen Dienst ange- 
glichenen Bezahlung. Eine Einschulung auch 
begabter Nach wuchskrafte fur solche Aufgaben 
ist kurzfristig schwierig, so rechnet man etwa 
in der Marktforschung haufig mit etwa zwei 
Berufsjahren, bis vom M itarbeiter selbstandig 
auch die Kontakte nach auften ubernommen 
werden konnen. Aus der Sicht der Bewerber 
mag diese Zeitvorstellung ubertrieben vorsich- 
tig erscheinen; man muft aber auch sehen, daft 
der Vorgesetzte bzw. Institutsinhaber bei einer 
«Verargerung» eines wichtigen Auftraggebers 
ein erhebliches Risiko eingeht, das bei kleine- 
ren Instituten auch die eigene wirtschaftliche 
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Existenzgefahrden kann. Esmag aber auch un- 
sachliche Grunde fur diese Skepsis geben; so 
wertet die Betonung der besonderen Schwierig- 
keit des Projekt-Managements die Leistung der 
«erfahrenen» Krafte gegenuber den Anfangern 
auf, was in Anbetracht der eher zunehmenden 
fachlich-wissenschaftlichen Kompetenz der 
Universitatsabsolventen die erheblichen Ein- 
kommensunterschiedezwischen diesen beiden 
Gruppen subjektiv rechtfertigt. Obsachlich voll 
berechtigt Oder ubertrieben, in jedem Fall muB 
man mit dem Bestehen dieser Leistungs- 
einschatzung durch potentielle Arbeitgeber 
rechnen und bei dereigenen Stellensuche und 
Karri ereplanung beach ten. 

Plbtzliche Kundigungen der Projektmitarbei- 
ter konnen die gesamte Zeitplanung und auch 
den Kostenrahmen (durch diedann erforderli- 
chen EinschulungsmaGnahmen) sprengen; ver- 
tragliche Vereinbarungen sind dagegen nur be- 
dingt wirksam, da ein an seiner Arbeitsstelle 
nicht mehr tatig sein wollender Mitarbeiter zu 
einer massiven Storquelledesgesamten Projek- 
teswerden kann. 



Organisationsaufgaben 

Aus der Sicht der Projektmitarbeiter ist die Ar- 
beitssituation an kleinen Instituten oft proble- 
matisch: 

• Der Arbeitsplatz wird als unsicher empfun- 
den, vor allem bei befristeten Arbeitsvertra- 
gen; Stellenangebote von auGen auch wah- 
rend laufender Projekte erscheinen daher 
beson ders attrakti v; 

• Die Beschaftigungsdauer sowie die haufige 
Beschrankung der Arbeit auf typische Spe- 
zialistentatigkeit beschranken dieChancezur 
personlichen Weiterqualifikation und redu- 
zieren die Moglichkeiten der Befriedigung 
von Gestaltungsbedurfnissen; 

• Es gibt wenig bzw. keine Aufstiegsmoglich- 
keiten innerhalbdesProjektesund spater(ge- 
nerell bei kleineren Instituten). Bei Projekten 
an Universitaten Oder vergleichbaren Ein- 
richtungen kann die Projektstelle ein guter 
Einstieg in ein langerfristig angelegtes Be- 
schaftigungsverhaltnis sein, ebenso bei gro- 
Geren privaten Firmen. Flat aber das beschaf- 
tigende private I nstitut nur zwei Oder drei 
Akademiker als M itarbeiter, ist eine Beschaf- 



tigung uber das Projekt hinaus unwahr- 
scheinlich - es sei denn, man ist so gut, dalS 
es aufgrund der eigenen Projekt-(Akquisi- 
tion-) Fahigkeitzu einer erheblichen Umsatz- 
erweiterung kommt. 

• Es gibt wenig Unterstutzung durch den Ar- 
beitgeber im Flinblick auf Weiterbildungs- 
moglichkeiten, die nicht unmittelbarfurdas 
konkrete Projekt relevante Kompetenzsteige- 
rungen erbringen. 

Positive Aspekte 

Bei diesen Aufstellungen wurden jeweilsnurdie 
Negativaspekte betont. Es gibt auch erhebliche 
positive Anreize durch die Art der Aufgaben- 
stellung, zum Beispiel 

• Flohe Identifikationsmoglichkeit mit der ei- 
genen Arbeit als Folgeeines uberschaubaren 
Projektes mit erkennbarer eigener Teillei- 
stung; 

• Vor allem fur Anfanger oft Tatigkeitsanfor- 
derungen, diedeutlich uber den bei Studien- 
abschlulS erreichten Fachkompetenzen lie- 
gen und entsprechend fordern; 

• Die oft hohe Identifikation aller Beteiligten 
mit den Projektaufgaben und das Wissen, 
nur bei gemeinsamer Anstrengung wirk- 
lichen Erfolg erreichen zu konnen, fuhren 
unter gunstigen Voraussetzungen (soziale 
Kompetenz der Beteiligten, Fuhrungsstil) zu 
einem sehr angenehmen Betriebsklima in- 
nerhalb des Teams. 

• Bei guter persbnlicher Kompetenz nicht ge- 
ringe Chancen, allmahlich immer selbstan- 
digere Bereiche zugewiesen zu bekommen 
und schlieftlich selbst Leistungsaufgaben zu 
ubernehmen; diese Chance wird aber mei- 
stens nicht vom Vorgesetzten an den M itar- 
beiter herangetragen, sondern mulS von die- 
sem (manchmal muhsam) erarbeitet werden 

Fur die Personalfuhrung selbst werden spezielle 
Instrumente wie sie etwa fur GrolSunterneh- 
men entwickelt wurden (siehedazu etwaGabele 
und Oechsler, 1984; Zander, 1982; Stroebeund 
Stroebe, 1984) kaum relevant werden, da der 
u n m i ttel bare person I i ch e Kon takt formal i si erte 
Instrumente (zum Beispiel schriftlichePersonal- 
beurteilungen) ersetzt. Man sollte sich aber 
wechselseitig bemuhen, die berechtigten Be- 



148 Durchfuhrung von Evaluationsstudien 



durfnissedes Partners zu erkennen, auch emo- 
tional zu akzeptieren und bei der Durchsetzung 
der eigenen Ziele so weit wie moglich zu be- 
rucksichtigen. Die besonderen Arbeitsbedin- 
gungen an kleinen privaten Instituten sol Ite 
man bei der personiichen Stellensuche stark 
beachten. Viele Absolventen, die in einer stark 
formell gegliederten groGen Organisation sich 
zu sehr eingeschrankt und zu wenig in ihrer 
Individualitat beachtet fuh I en, konnen bei sol- 
chen kleinen Arbeitgebern mehr Entfaltungs- 
moglichkeiten finden. Wer Sicherheit, starke 
Arbeitsteilung Oder hierarchischen Aufstieg 
sucht, fuh It sich vermutlich in groGen Institu- 
tion en wohler. 



6.1.2 Kontrolltechniken des 
Projektverlaufes und des 
Konfliktmanagements 

GroGere Evaluationsprojekte mit langerer Lauf- 
zeit konnen auch von «genialen» Projektleitem 
nicht ohne eine regelmaGige Ruckmeldung 
uber die Einhaltung von 

• Zeitplanung 

• Kostenrahmen 

• VereinbarteQualitatsstandards 

durchgefuhrt werden. 

Relativ einfach ist dies bzgl. des Zeitablaufes, 
wenn bei der Projektplanung ein detai 1 1 ierter 
Zeitplan (vgl. DiagrammV/6) erarbeitet wurde. In 
diesem Fall muG man nursicherstellen, daG die 
einzelnen Teilschritte nicht uber Gebuhr uber- 
zogen und dadurch diePufferzeiten zu fruh auf- 
gebraucht werden. Ein wenig schwieriger ist es 
fur den «nur-sozialwissenschaftlich» ausgebil- 
deten Projektleiter, sich auch ein sachgerechtes 
Bild uber die tatsachlich entstandenen Kosten 
zu erarbeiten. Zwar wird es im Regelfall nicht 
notwendig sein, umfangreiche formalisierte 
Kontrolltechniken wie bei Wirtschaftsprojekten 
ublich (vgl. dazu Ziegenbein, 1984; Bramse- 
mann, 1978; Wohe, 1982) einzusetzen, aber 
eine regelmaGige (evtl. wochentliche) Gegen- 
uberstellung der bis zum jeweiligen Arbeits- 
schritt geplanten Ausgaben, der durch Vertrage 
eingegangenen Zahlungsverpflichtungen und 
den bereits tatsachlich verausgabten Betragen 
sollte selbstverstandlich sein. Selbst innerhalb 



des jeweiligen Projektbudgets, also ohne Be- 
rucksi ch ti gu n g der zu gesch I u sel ten G emei n ko- 
sten, gar nicht so seltene Fehler sind: 

• Keine Berucksichtigung der Lohnneben- 
kosten (vgl. Kapitel V, Einleitung) 

• Kalkulation der Projektarbeiten auf der Basis 
eines52-Wochen-Jahres; im Durchschnitt ist 
wegen Urlaubs- und anderen Ausfallzeiten 
der deutsche Arbeitnehmer nur 43 Wochen 
im Jahr produktiv tatig; werden etwa Ur- 
laubszeiten bei der Planung nicht beachtet, 
kann dieszu einem ganzerheblichen Kosten- 
faktor (Ablosung des Urlaubsanspruches 
bzw., sofern uberhaupt moglich, die Bezah- 
lung von Ersatzkraften) werden; 

• Keine Reserven fur die Uberbruckung von 
Ausfallen (vorzeitige Kundigungen, Mutter- 
schaftsurlaub, langere Erkrankungen); 

• Keine rechtzeitige Einplanung von (inflati- 
onsbedingten) Lohn-und Preissteigerungen.; 

Besondere Probleme konnen auftreten, wenn 
mit dem Auftraggeber kein Festpreis, sondern 
zumindest in Teilen der Ersatz der tatsach lichen 
Aufwendungen verabredet wurde. Dies kann 
zum Bei spiel dann erforderlich sein, wenn sich 
die Kosten mancher Arbeitsschritte in der 
Planungsphase nicht realistisch abschatzen las- 
sen Oder wesentlich von dem spateren Verhal- 
ten des Auftraggebers selbst abhangen. Beispiele 
sind etwa die teilweise muhevollen und mit 
Dienstfahrten verbundenen Einholungen von 
Zustimmungen von Eltern, Lehrern und Schu- 
lern bei Schuluntersuchungen, Oder die u.U. 
langwierigen Kommunikationsprozesse zwi- 
schen der technischen Entwicklungsabteilung 
und den Projektmitarbeitern bzgl. der Erarbei- 
tung einer neuen Prod uktvari ante auf der Basis 
vorl auf i ger Proj ektergebn i sse i m Fal I e ei n er for- 
mativen Produktevaluation. In solchen Fallen 
mussen die Bestimmungen des Auftraggebers 
(zum Beispiel Flochstbetrage fur Ubernach- 
tungs- und Verpflegungsspesen, Kilometergeld, 
anzurechnendesStundenhonorar) zusatzlich zu 
der eigenen Kalkulation beachtet werden. 

Die laufende Kontrolle der dem Auftraggeber 
zugesicherten Qualitatsstandards kann in for- 
mal isierter Form nurfurdieeherquantitativen 
Teile der Projektarbeit (Rucklauf von Fragebo- 
gen, Verweigerungsraten von mundlichen In- 
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terviews, Ausfalledurch fehlendeZustimmung 
von zum Beispiel Schulen und Kliniken) durch- 
gefuhrt werden. Hinweise auf entsprechende 
Verfahren gibt etwader Bundesministerfur For- 
schung und Technologie, 1977. Die Sicherung 
der eher qualitativen Anforderung wie Erfolg 
der Interviewerschulung, Informationsaus- 
schopfung, sicherstellende Kodierung offener 
Antworten Oder umfassend aussagekraftige 
Datenauswertung bleibt wahrend der Projekt- 
arbeit meist dem subjektiven Eindruck des 
Leiters, der auf der Basis seiner personlichen 
Erfahrung das laufende mit erfolgreich abge- 
schlossenen Projekten vergleichen kann, uber- 
lassen. 

Eine Ubersicht uber einige Kontrolltechniken 
findet sich im Diagramm V/ 3 (vgl. Abschnitt 
5.1.3). 



6.1.3 Unerwartete Storf a lie 

Prinzipiell muB man davon ausgehen, daft na- 
hezu jededenkbare Katastrophe im Verlaufeei- 
nes langerfristigen Evaluationsprojektes auch 
tatsachlich eintreten kann. Ty pi sche Beispiel e: 

Anderung der Zielsetzung des Projektes; Ursachen 
dafurkann ein anderer Verwertungszusammen- 
hangsein (vgl. dazu etwadieSzenario-Technik, 
Diagramm iv/ 3), ein Person alwechsel beim Auf- 
traggeber mit entsprechend unterschiedlicher 
Schwerpunktsetzung (als konkretes Beispiel: 
PI otzl i ch e Aufgabe des vorh er al s un verzi chtbar 
bezeichneten Grundsatzes, alleUnternehmens- 
teileals Einheit im Hinblick auf die «cooperate 
identity» aufzufassen und die PR-MaGnahmen 
auf dieser Grundlage zu optimieren) Oder Ent- 
fallen der eigentlichen Untersuchungsgrund- 
lage(etwa bei der formativen Evaluation einer 
Werbekonzeption, wenn von der Konkurrenz 
ein in jeder Hinsicht uberlegenesProdukt uber- 
raschend auf den Markt gebracht wird). 

Plotzliches Auftreten nicht bekannter Oder zu- 
mindest vom Auftraggeber verschwiegener 
«Nebenwirkungen»; alsausschlieBlich der Praxis 
entnommene Beispiele: Versaumen einer 
Staatsprufung ei ner studentischen Versuchsper- 
son bei der Erprobungdertherapeutischen Wir- 
kung eines Psychopharmakons als Folge eines 



48-Stunden-Dauerschlafes; eineandere Institu- 
tion hatdieKooperation miteinem Institutein- 
gestellt, nachdem allean einem Experiment zur 
Optimierung von Beipack-Zetteln beteiligten 
weibliche Versuchspersonen am nachsten Tag 
wegen Ubelkeit arbeitsunfahig waren, obwohl 
die verschiedenen Beipack-Varianten aus- 
schlieBI ich mit einem Placebo kombiniert ge- 
geben wurden und damit tatsachliche Medi- 
kamentenfolgen ausgeschlossen waren. 

Nicht-vorhersehbareReaktanz; so muGteetwa die 
empirische Evaluation eines Studienganges ei- 
ner Flochschuleabgebrochen werden, weil sich 
die Studenten des Fachbereiches geschlossen 
weigerten, als Interviewpartner zur Verfugung 
zu stehen. Die Ursache war, dalS der Unter- 
suchungsleiter als Finanzier des Evaluations- 
p roj ektes daszustandigeLandes-Wi ssen sch afts- 
ministerium (fur die Studenten damals ein 
Feindbild) und nicht, wieesauch faktisch rich- 
tiggewesen ware, dieFlochschuleselbstalsAuf- 
traggeber genannt hatte. 

Uberlappung des Untersuchungsdesigns mit ande- 
ren Zielsetzungen; so fanden sich in einer auf 
zwei Jahre geplanten Evaluation verschiedener 
Formen von Arbeitsgestaltungam Endeder Pro- 
jektphase nur noch zwei Personen in der Be- 
dingungskombination, in der sie aufgrund der 
Untersuchungsplanung hatten sein sollen, die 
ubrigen waren entweder auf eigenen Wunsch 
(Schichtwechsel, bevorzugte Zusammenarbeit 
mit bestimmten Kollegen, viel leicht auch Ab- 
lehnung der zufallig zugeteilten Arbeitsform) 
Oder aufgrund von gemalS Erfordernissen der 
Arbeitsorganisation erfolgten Anderungen 
nicht mehr in der entsprechenden Design- 
Zelle. 

Das Auftreten inakzeptabler Methodenartefakte; so 
wurden in einer Studiezu verschiedenen Mog- 
lichkeiten der Wohnungsgestaltung auch un- 
tersucht, wie hoch die vermutliche Verweil- 
dauer in den einzelnen Wohnungsformen fur 
Personen mit verschiedenem Alter, Lebenslauf- 
zyklus und dgl. sein wurde; als Folge des ver- 
wendeten multipel-linearen Regressionsan- 
satzes ergab sich fur al le Personen mit einem 
Einzugsalter von uber 55 eine negative progno- 
stizierte Verweildauer, was infolge des Fehlens 
rechtzei tiger Qualitatskontrollen erst sehr 
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knapp vor dem endgultigen Abgabetermin des 
Sch I uBberichtes erkan nt wurde. 

Auch absolut Unvorhersehbares passiert. So wur- 
den etwa Teile der Daten einer Sch u I system- 
evaluation durch einen Brand vernichtet(Aurin, 
1986). In einem anderen Projekt verweigerteein 
befristet Beschaftigter (und aus anderen Grun- 
den in eine Konfliktkonstellation gedrangter) 
M itarbeiter die Herausgabeder von ihm erhobe- 
nen Patienten interviews innerhalb einer The- 
rapieevaluation mitder Begrundung, erseheden 
Vertraulichkeitsschutz der Patientenangaben 
durch ungenugende Anonymisierung gefahrdet, 
was zu erheblichen Zeitverzogerungen bei der 
Projektdurchfuhrung fuhrte. 

Unerklarliches; so muBte etwa bei einer Ver- 
gleichsuntersuchung uber die kognitive Lei- 
stungsfahigkeit der Studenten verschiedener 
Universitaten ein bestimmter Teilbereich bei 
der Auswertung unberucksichtigt bleiben, da 
die Studenten einer groRen suddeutschen Uni- 
versitat gerade in diesem Bereich so extrem 
schlechte Werte zeigten, daft diese Ergebnisse 
ganzeinfach nichtstimmen konnten; dieUrsa- 
chenforschung (u.a. Fehlverhalten des Ver- 
suchsleiters, bewuRte Sabotage der Untersu- 
chung durch Studenten etc.) erbrachte keine 
akzeptable Erklarung; 

Keines der hier genannten Beispiele ist erfun- 
den, sofern kein Literaturzitat angegeben ist, 
kommen sieausder personlichen Projektarbeit 
der Verfasser Oder wurden von absolut zuver- 
lassigen Kollegen mundlich berichtet. Man 
sieht daran viel leicht die Vielfaltigkeit der auf- 
tretenden Storungen, vielleicht auch einige 
Strategien zu ihrer Begrenzung. Das Problem 
ist, daft die Kombination aller denkbaren 
VerhinderungsmaRnahmen fur Storfalle jede 
Untersuchung wesentlich verteuern und u.U. 
so aufwendig machen wurde, dalS sie nicht 
mehr in Auftrag gegeben werden konnte. Man 
wird «Katastrophen»nievoll ausschlieBen kon- 
nen, was es um so wichtiger macht, mit dem 
Auftraggeber ei n moglichst positivesVerhaltnis 
herzustellen. Korrektes, entgegenkommendes 
und auch gegenuber Verhal ten swei sen desAuf- 
t raggebers «feh I erf reu n d I i ch es» Verh al ten kan n 
viel dazu beitragen, im Notfall dessen Verstand- 
nisfur unvorhergesehene Storungen zu finden. 



6.2 Auswertungsarbeiten 

Gegenuber den ausdem Studium vertrauten Se- 
minar- bzw. Diplomarbeiten haben groBere 
Evaluationsprojekteden Nachteil, daft sehr viele 
Detailarbeiten nicht vom Untersuchten selbst 
durchgefuhrt Oder auch nur annahernd ausrei- 
chend supervisiert werden konnen. Essind da- 
her fur solcheTatigkeiten Kontrollen erforder- 
lich, die gleichzeitig auch eine weitere 
Motivationshilfe fur sorgfaltiges Arbeiten sein 
konnen (6.2.1). Fur viele, gerade vom Inhalt 
her besonders interessante Evaluationsprojekte 
stelltsich auch in besonderem Mafte die Frage 
der Vertraulichkeit, und zwar sowohl im H in- 
blick auf die Interessen der befragten bzw. be- 
obachteten Probanden alsauch des jeweiligen 
Auftraggebers. H i erbei sind neben einer an sich 
selbstverstandlichen profession el I en Ethikauch 
die Rechtsbestimmungen zu beachten (6.2.2). 
Prinzipiell nicht losbar ist das Problem, daR 
durch die spezifizierte Festlegung der Aus- 
wertungsplane immer nur ein Teil der denkba- 
ren Vielfalt an Ergebnissen erarbeitet werden 
kann, was zumindest bei emotional heftig ab- 
gelehnten Ergebnissen leicht zum Vorwurf be- 
wuRter Manipulation fuhren kann (6.2.3.). 



6.2.1 Kontrolle der Datenqualitat 

Fehler konnen sich in jeder Phase der Projekt- 
arbeit mit Daten einschleichen: 

• Bei derErhebung: zum Beispiel Problememit 
Interviewern bei mundlicher Befragung Oder 
h oh e systemati sche An twortverwei gerun gen 
bei schriftlichen (postal i sch en) Erhebungen 

• Bei der Datenaufbereitung: Kodierfehler, fal- 
sche EDV-Eingabe 

• Bei der Auswertung: Verwechseln von 
Variablennummern Oder Codes, falsche 
(Sub-) Dateien 

Eine vollige Sicherheit gegen al I e solche 
projektbedingten Fehler kann nicht garantiert 
werden, vieles laRt sich aber durch organ isato- 
rische MaBnahmen erreichen. 

Datenerhebung durch Interview 

Interviewer sollten Arbeitsbedingungen erhal- 
ten, die eine ehrliche Datenerhebung nahele- 
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gen und Verfalschungen zumindest nicht pro- 
vozieren. Neben eineralszu niedrig empfunde- 
nen Bezahlung konnen sich vorallem folgende 
Bedingungen negativ auswirken: 

• Bezahlungderlnterviewernach «erfolgreich» 
durchgefuhrtem Interview ohnefaires Ent- 
gelt fur erfolglose Besuche (Proband nicht 
angetroffen, Antwort verweigert) 

• KeineVorgabevon Namen und Adressen von 
zu befragenden Personen (dadann der Inter- 
viewer weiR, dalS kein n ach tragi iches Kon- 
trollieren des Stattfindens des Interviews 
moglich ist); sofern sich dies nicht vermei- 
den laRt, ist eine Ldsungsmoglichkeit das 
nachtragliche Notieren dieser Daten (aus 
Vertraulichkeitsgrunden unabhangig vom ei- 
gentlichen Interviewbogen), diesstoRt aber 
haufig auf erhebliche Reaktanz bei den Be- 
fragten (man kann zum Beispiel kaum je- 
mand auf der StraRe ansprechen und ihn 
uber seine Meinung etwa zu einer politisch 
relevanten MaRnahme fragen, ihm Anony- 
mitat zusichern, und anschlieRend Name 
und Adresseaufschreiben). 

• Quotenvorgaben; wenn der Interviewer je- 
weils bestimmte Prozentsatze von zum Bei- 
spiel Geschlecht, Alter und Berufsgruppe 
befragen muR, kann leicht die Situation ent- 
stehen, daR er gegen Ende seiner Daten- 
sammlung verzweifelt einen 20jahrigen 
mannlichen Altersrentner benotigt. Findeter 
einen solchen nicht, muR er entweder auf 
einen Teil der bereits durchgefuhrten Inter- 
views verzichten (dieerdann auch nicht ab- 
rechnen kann) Oder einen Losungsweg wah- 
len, den man nicht mehr als «empirische 
Daten erh ebu n g» bezeichnen kann. 

• Unbefriedigende Arbeitskonditionen, fehler- 
behaftete Adressen vorgabe (ein hoher Anteil 
von nicht auffindbaren Personen), schlecht 
aufgebaute Fragebogen (zum Beispiel mitvie- 
len Verweigerungen aufgrund unverstand- 
lich formulierter Oder in der Reihenfolge un- 
gunstig position ierter Fragen) oderfehlender 
Spesen ersatz f u r erfo I gl ose Fah rten . 

• Massive Interviewer- bzw. Untersuchungs- 
leitereffektesind zu erwarten, wenn sich die- 
ser Personenkreis mit bestimmten Evalua- 
tionsergebnissen identifiziert (ein Beispiel 
dafur sind etwa die Geruchte, daR bei man- 
chen Schulvergleichsuntersuchungen diefur 



dieTestung bzw. Befragung der Schuler ein- 
gesetzten Studenten in den von ihnen sub- 
jektiv bevorzugten Schulformen gezielt Hin- 
weise fur das optimale Ausfullen gegeben 
haben sollen). 

Neben der Vermeidung solcher organ isatori- 
scher Mangel (wobei man auch die Position 
«sparsamer» Projektleiter sehen mulS: haufig 
werden Projekte auf der Basis von Ausschrei- 
bungen vergeben, waszu knapper Kalkulation 
zwingt!) sollte man sich um eine gute 
Interviewerschulung bemuhen, die meist von 
den Projektmitarbeitern selbst zu gestalten ist. 
Diese sollte die Problematik gefalschter Daten 
im Hinblick auf die Aussagekraft des gesamten 
Ergebnisses deutlich machen und versuchen, 
bei den Interviewern auch intrinsische Motiva- 
tion und Identifi kation mitdem Gesamtprojekt 
zu erreichen. Auch sollte man die Interviewer 
auf die Durchfuhrung von Kontrollen hinwei- 
sen. 

Ein auch bei massiver Schulung nicht vollig 
ausschlieRbares Problem sind Interviewerein- 
flusse (fur die dadurch ausgelosten Effektevgl. 
etwa Konig, 1972; Roth, 1984, S. 150ff.). Wenn 
es die GroRe des Projektes zulaRt, kann man 
durch ein bewuRte areuung der Interviewer- 
merkmale einen Ausgleich dereinzelnen Stor- 
effekte anstreben, jedenfalls ist es ungunstig, 
einen einzelnen Interviewer zu groRe Fall- 
zahlen zuzuordnen (in der Praxis relativ be- 
wahrt haben sich etwa 10, bei groReren Studi- 
en ausnahmsweise auch 15 Interviews als 
Hochstgrenze). Daraus ergeben sich naturlich 
erhohte Aufwendungen fur Interviewer- Suche 
und Schulung, die man aber in Kauf nehmen 
sollte. 



Interviewerkontrolle 

Besonders aussagekraftig sind nachfassende 
Kontrollen bei den Probanden. Diessolltenicht 
unbedingt als «Kon troll an ruf» erkennbar sein, 
gunstiger ist ein Anruf bei einer (angeblich) be- 
fragten Person mit der Bitte um Aufklarung ei- 
nes Details Oder einer Beurteilung des 
Interviewerverhaltens. Ein solchesVorgehen ist 
naturlich nurbei Interviewsmit bekannten Pro- 
banden, etwa bei vorgegebenen Adressen aus 
einer Stich probe, moglich. 
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Eine zumindest heuristisch wertvolle Hilfe 
kann auch die Daten analyse der abgegebenen 
Interviews sein. Neben Plausibilitatskontrol- 
len (siehe weiter unten) kann auch die Pru- 
fung der Homogenitat (erfaGt durch die 
Varianz) der von einem Interviewer geliefer- 
ten Daten im Vergleich zur Gesamtstich probe 
(bzw. nach strukturellen Merkmalen ahnli- 
chen Daten satzen) interessante Hinweise ge- 
ben. 1st die Datenvarianz deutlich geringer, 
liegt zumindest den Verdacht nahe, daB der 
Interviewer relativ haufig seine eigene Vor- 
meinung (unmittelbar Oder durch Interview- 
einflusse) in die Ergebnisse hat einflieBen las- 
sen oderentgegen den ublichen Anweisungen 
bevorzugt seinen engeren Bekanntenkreis be- 
fragthat, wasebenfalls leicht zu relativ homo- 
genen Antworten fuhrt. Solche Befundesind 
aber selbstverstandlich nur Hinweise, die 
nichtzu einem (moglicherweise ungerechtfer- 
tigten) Vorwurf fuhren sollten, sondern viel- 
leichtzu einer gezielten Nachfrage. 



Schriftliche Befragung 

Bei der postal ischen Befragung sind einige Stor- 
effekte noch massiver als beim personlichen 
Interview; so weiB man etwa nie genau, wer 
den Fragebogen tatsachlich ausfullt, ob essich 
um eine «Gruppenarbeit» der ganzen Familie 
handelt, und ob nicht einige Fragen miBver- 
standlich formuliert waren. Ausdem letzteren 
Grund muB man bei der Fragebogen konstruk- 
tion besonderssorgfaltig vorgehen. 

Das Hauptproblem der postalischen Befragung 
ist sehr haufig die Rucklaufquote. Esgibt einige 
Tricks, um schon durch dieGestaltung des Ma- 
terials diese zu erhohen (zum Bei spiel das 
Antwortcouvert nicht freistempeln lassen, son- 
dern miteiner Briefmarkeversehen), doch wird 
man trotzdem haufig darauf angewiesen sein, 
bei den nicht antwortenden Befragten nachzu- 
fassen. Dies wird wesentlich dadurch erleich- 
tert, wenn man am Posteingang erkennen 
kann, welche Personen ausder ursprunglichen 
Adressenliste geantwortet haben. Diese Identi- 
fikationsarbeit kann aber erhebliche Schwierig- 
keiten machen, wenn die Fragebogen ausGrun- 
den der Anonymitat keine Namensangaben 
tragen . 



Einige Losungsmoglichkeiten: 

• Dieangeschriebenen Personen werden gebe- 
ten, bei absoluterZusicherung der Anonymi- 
tat der Auswertung den Absender auf dem 
Couvert (nicht auf dem Fragebogen) zu ver- 
merken . 

• Bei schriftlichen Befragungen in Organisatio- 
nen wiezum Beispiel Unternehmen werden 
auf den Fragebogen gerne vor dem Austeilen 
Code-Nummern vermerkt, die eine Identifi- 
kation derjeweiligen Abteilungermoglichen; 
selbstverstandlich muB dies offiziell gesche- 
hen und mit dem Betriebsrat geklart sein ! 

• Bei manchen schriftlichen Befragungen fin- 
det sich auf dem Ruckantwortcouvert eine 
Adresse, die eine «Projektnummer» enthalt; 
diese Projektnummer ist individuell fur jede 
befragte Person (ein entsprechender Aus- 
druck, zum Beispiel auf Klebeetiketten Oder 
Endlos-Couvertsist EDV-maBig unproblema- 
tisch) und ermoglicht somit eine I dentifi ka- 
tion der antwortenden Personen. Allerdings 
ist ein solches Vorgehen rechtlich proble- 
matisch. Auch fordert es nicht gerade das 
Vertrauen der Befragten in die Anonymitats- 
garantie, wenn mehrfach mit der Begrun- 
dung «sie haben noch nicht geantwortet» 
nachgefragt wird, ohnedaB den Betroffenen 
der Kontrollmechanismus fur die eingegan- 
gene bzw. fehlende Antwort ersichtlich ist. 
Wertvolle Hinweise fur eine rechtlich saube- 
re, allerdings manchmal auch umstandliche 
Regel u ng finden sich in Lecher, 1988. 

Fehler bei der Datenaufbereitung 

Codierarbeiten sind lastig, erfordern aber oft 
eine erhebliche allgemeine Intelligenz, so daB 
man neben speziell mitsolchen Tatigkeiten be- 
schaftigen Buropersonal bei unregelmaRigem 
Anfall von Arbeiten auf gutes Aushilfspersonal 
zuruckgreifen muR. Von M itarbeitern, die nur 
kurzfristig, ohne Kenntnis der Projektzusam- 
menhange und oft auch ohne soziale Bindun- 
gen an das Projektteam beschaftigt werden, 
kann man keine ausgepragte intrinsische Moti- 
vation fur die Durchfuhrung der (ohnedies 
meist sehr langweiligen) Codierarbeiten erwar- 
ten. Leider ist oft eine erhebliche Fehlerquote 
zu beobachten, vor allem bei (niedriger) Bezah- 
lung pro durchgearbeitetem Fragebogen. Aus 
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diesem Grund mussen zur Fehlerkorrektur 
unbedingt Kontrollen erfolgen. Ideal, aber nur 
selten finanzierbar sind Doppelarbeiten (das 
gleiche Ausgangsmaterial wird von zwei Hilfs- 
kraften codiert, die Ergebnisse werden vergli- 
chen). Eher realisierbar ist einedie Sorgfalt un- 
terstutzende Entlohnung, insbesondere die 
Bezahlung nach Zeit anstatt nach Stuck (wo- 
raus ein gewisses Eigen interesse entsteht, die 
Arbeit nicht allzu schnell zu erledigen) sowie 
Kontrollen mit einer entsprechenden (auch fi- 
nanziellen) Verrechnung gefundener Fehler. 

Prinzipiell Gleiches gilt fur Dateneingabe- 
arbeiten an die EDV. Hier ist der Leistungsun- 
terschied zwischen profession el I en M itarbeitern 
und Aushilfspersonal besondersgravierend (ge- 
schulte Krafte haben etwa die doppelte Ge- 
schwindigkeit von ungeschulten), auch die 
Sorgfalt ist bei Spezialisten hoher. 

Diefruher vor allem im kommerziellen Be- 
reich ubliche Gewohnheit, zumindest alle 
wichtigen Daten ubereinen «Pruflocher» dop- 
pelteinzugeben, ist im Zusammenhang der un- 
mittelbaren Bildschirmeingabe zumindest bei 
sozialwissenschaftlichen Projekten deutlich zu- 
ruckgegangen. Ein leider nur partieller Ausweg 
sind dieunten besprochenen Plausibilitatskon- 
trollen an der EDV. 

Leider werden diedurch Codier- und Daten- 
eingabefehler verursachten Verzerrungen der 
Ergebnisse von akademisch gebildeten Anfan- 
gern meist unterschatzt. 

Plausibilitatskontrollen gehen heute nach 
den professionellen Standards jeder Datenana- 
lysevoraus. DasGrundprinzip ist, dalS man sich 
zunachst uberlegt, welche Konfigurationen in 
den Daten einzelner Personen aulSerordentlich 
unwahrscheinlich sind. Meist nimmt man dazu 
objektive Merkmale, wie Alter, Geschlecht, Art 
und Dauerder Ausbildung u.a. Fur Evaluations- 
studien aulSerhalb des allgemeinen sozialwis- 
senschaftlichen Bereicheswichtig sind auch die 
Moglichkeiten, unplausible Testergebnisse zu 
identifizieren (massive Abweichungen zwi- 
schen einzelnen Subtests der gleichen Person, 
hohere Beantwortungsraten fur «schwierige» 
als fur leichte Items) Oder auf wahrscheinlich 
verfalschendes Antwortverhalten zu schlielSen 
(Anlegen von «Strickmustern» auf den Ant- 
wortblattern, in dem zum Beispiel immer in 
der Reihenfolge der Antwortalternativen A, B, 
C, D etc. geantwortet wird; Auswahl bestimm- 



ter Antwortalternativen wie etwa immer eine 
Extrem kategori eoderdiellnen tsch I ossen -M og- 
lichkeit). 

Solche Programme mit Plausibilitatsuberlegun- 
gen erkennen Interviewer- , Aufbereitungs- Oder 
Eingabefehler um so besser, je umfangreicher 
das entsprechende Programm gehalten wird. 
Allerdings steigt gleichzeitig auch die Wahr- 
scheinlichkeit, ohne Vorliegen eines Fehlers 
auffallige Datenkombinationen auszuwerfen 
(schlielSlich kann esja tatsachlich den 23jahri- 
gen Promovierten geben, der «Rentner» als Be- 
ruf angegeben hat, da seine Waisenrente die 
finanzielle Haupteinnahmequelle darstellt). 
Solche «auffalligen» Personen durfen daher 
nicht sofortausgeschieden werden, sondern die 
Ursachefurdieauffallenden Kombinationen ist 
uber den Vergleich der Dateneingabe mit den 
schriftlichen Unterlagen, die richtige Codie- 
rung der Unterlagen und schlielSlich im Ex- 
tremfall durch Nachfrage zur Kontrolle des 
Interviewverhaltens nachzuvollziehen. Da dies 
sehr aufwendig ist, steht man vor dem Dilem- 
ma, dalS mit steigernder Sicherheit der I dentifi- 
kation von I n p I au si bi I i taten der Arbeitsauf- 
wand fur die Klarung der einzelnen Befunde 
ansteigt. Im allgemeinen wird man sich mitum 
so groberen Plausibilitatskontrollen zufrieden 
geben konnen, je sorgfal tiger die Kontrolle der 
einzelnen Arbeitsschrittevorhererfolgt ist. 

Datenauswertung 

Die typischen Fehler hier (insbesondere Ver- 
wechslungen von Variablennummern, wasbe- 
sonders leicht geschehen kann, wenn verschie- 
dene Projektmitarbeiter Auftrage an die EDV 
mit unterschied lichen Variablen-Ordnungen 
geben) treten seltener auf als bei der Datenein- 
gabe, konnen dann aber um so gravierender 
sein. Neben sorgfaltiger Arbeit - wozu auch 
gleich bezeichnete Unterlagen und das«Wegs- 
perren» von Vorlagen mit nicht mehr gultiger 
Numerierung der Variablen gehort- istdie«se- 
mantische» Plausibilitatskontrolle zu empfeh- 
len. Jedem (wirklich jedem!) Widerspruch in 
den Ergebnissen ist nachzugehen, auch wenn 
diesviel Zeit kostet und ruckblickend unnotig 
erscheint. So kann esja wirklich sein, dalS es 
zwischen Teilgruppen extreme Varianzunter- 
schiede gibt, die Einteilung nach der Kinder- 
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zahl die Zusammenhange zwischen der Beur- 
teilungvon Sach-und Personalausstattung von 
Leitenden Angestellten vollig verandert (kon- 
kret in einem Projekt passiert) Oder gegenuber 
der Erwartung vollig entgegengesetzte empiri- 
sche Befunde auftreten . Trotzdem sol Ite man i n 
alien solchen und ahnlichen Fallen die Aus- 
wertung kontrollieren, ggf. von einem damit 
noch nicht befaGten Mitarbeiter unabhangig 
von den bisherigen Eingaben neu durchfuhren 
lassen. 

Ein besonderes Problem sind «selbstgestrick- 
te» Programme fur die Auswertung. Zwar hat 
die weite Verfugbarkeit publizierter, ausgeteste- 
ter Programme die projektspezifische Program- 
mi erarbeit ein gesch ran kt, doch istauch diePu- 
blikation keine Garantie fur Fehlerfreiheit. Ein 
negatives Beispiel ist etwa bei Flartner et al„ 
(1979) zu finden, der Program mfeh I er wurde 
erst wesentlich spater entdeckt (s. Baumert et 
al, 1988). Allerdings ist bei «eigenen» Program- 
men die Fehlerchance im Regel f al I besonders 
hoch, weil weniger Zeit fur das Austesten (und 
manche Fehler zeigen sich nur in seltenen Si- 
tuationen) verbleibt. In einem konkreten Fall 
(Uberprufung der Nebenwirkungen eines 
Pharmakons unter Benutzung eines seltenen 
statistischen Verfahrens) wurde ein Programm- 
fehler nur dadurch entdeckt, daft die «Sig- 
nifikanzen» so massiv waren, daft diese Un- 
glaubwurdigkeit zu einem Nachrechnen von 
Fland fuhrte (es war bei Korrekturarbeiten im 
Programm ein Statement mit einer Divisions- 
anweisung irrtumlich geloscht worden). Klei- 
ne Ursachen konnen erhebliche Auswirkun- 
gen haben! 



6.2.2 Datenschutz 

Der gerade fur den EDV-Einsatz in Behorden 
und anderen Verwaltungen potentiell beson- 
ders gefahrdete Schutz der «Privatsphare» hat 
ei n e massi ve often tl i ch e D i sku ssi on veru rsach t, 
die auch die Moglichkeiten in Forschungs- 
projekten wesentlich beeinflulSt. DieWahrung 
des Person I ichkeitsschutzes ist ein wichtiges 
Anliegen, gerade auch in sozialwissenschaftli- 
chen Evaluationsprojekten, sollteaber nicht zu 
einer sachlich nicht nachvollziehbaren Behin- 
derung der Projektarbeit fuhren, was leider ge- 
legentlich vorkommt. Fur einen Juristen zum 



Beispiel im Offentlichen Dienst konnen ausei- 
ner irrtumlichen Oder wegen seiner personli- 
chen Einschatzung «zu grol$zugigen» Geneh- 
migung von Vorhaben deutliche Nachteile 
entstehen, die Verhinderung von Projekten 
bleibt fur ihn selbst meist vollig folgenlos. Bei 
einer solchen Reinforcementstruktur fuhren 
schon einfachste subjektive Nutzenuberlegun- 
gen (ausfuhrlicher bei Wottawa und Flossiep, 
1987, S. 48ff.) zu einer Bevorzugung restrikti- 
ver Auffassungen. 

Bei Laien bestehen zumTeil erheblich MilSver- 
standnisse bezuglich des Begriffes «Daten- 
schutz». 

Wesentlicher Gesetzesinhalt des Bundesda- 
ten sch utzgesetzes ( BDSG ) i st der Sch utz des ei n- 
zelnen vor den Gefahren der Verbreitung von 
Daten, die sich auf Person en beziehen. Dabei 
bezieht es sich, ohne zwischen verschiedenen 
Arten von Daten zu unterscheiden, auf al leper- 
son enbezogenen Daten und regelt die Daten- 
verarbeitung von Behorden und Privatunter- 
nehmen. 

Im ersten Abschnitt desGesetzeswerden Be- 
gri ffsbest i m m u n gen , Zu verl assi gkei tsvorausset- 
zungen fur die Daten verarbeitung und Rechte 
der Betroffenen geregelt (§l-§6 BDSG). 

Der zweite Abschnitt befa&t sich mit Daten- 
verarbeitung durch offentliche Verwaltungen 
(§7-§21 BDSG). Als Uberwachungseinrichtung 
ist der Bundesbeauftragte fur den Datenschutz 
vorgesehen. 

FurdieDatenverarbeitung im privaten Bereich, 
insbesondere im Verhaltnis zwischen Arbeitge- 
ber und Arbeitnehmer, gilt der dritte Abschnitt 
(§22-§30 BDSG), wahrend der vierte Abschnitt 
Sondervorschriften fur solche Unternehmen 
enthalt, die Daten fur Dritte verarbei ten (§31- 
§40 BDSG). Der funfte und sechste Abschnitt 
des Gesetzes enthalten die Regelungen von 
Sanktionen sowie Ubergangs- .und SchluBvor- 
schriften (§41-§47 BDSG). Einige fur die 
Evaluationsarbeit besonders wichtige Paragra- 
phen finden sich im Diagramm vi/ 1. 

Die Problematik «Datenschutz» durfte an sich 
fur die meisten Evaluationsprojekte keinerlei 
Sch wieri gkei ten bereiten, da eine personenbe- 
zogene Datenauswertung im Regelfall nicht er- 
forderlich ist. 
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Diagramm VI/ 1 

Auszug aus dem Bundesdatenschutzgesetz (BDSG) (vgl. Kittner, 1987) 



§2: Begriffsbestimmung 

(1) Im Si nne dieses Gesetzes sind personenbezo- 

geneDaten Einzelangaben uber personliche Oder 

sachliche Verhaltnisseeiner bestimmten Oder be- 

stimmbaren naturlichen Person (Betroffener). 

(2) Im Si nne dieses Gesetzes ist 

l.Speichern (Speicherung) dasErfassen, Aufneh- 
men Oder Aufbewahren von Daten auf einem 
Datentrager zum Zweck ihrer weiteren Verwen- 
dung, 

2. Ubermitteln (Ubermittlung) das Bekanntgeben 
gespeicherter Oder durch Datenverarbeitung 
unmittelbar gewonnener Daten an Drittein der 
Weise, da(5 die Daten durch die speichernde 
Stelle weitergegeben Oder zur Einsichtnahme, 
namentlich zum Abruf bereitgehalten werden, 

3. Verandern (Veranderung) das inhaltliche Um- 
gestalten gespeicherter Daten, 

4. Loschen (Loschung) das Unkenntlichmachen 
gespeicherter Daten, ungeachtet der dabei ab- 
gewendeten Verfahren. 

(3) Im Si nne dieses Gesetzes ist 

1. speichernde Stellen jededer in §1 Abs. 2 Satz 1 
genannten Personen Oder Stellen, die Daten fur 
sich selbst speichert Oder durch andere spei- 
chern I aBt, 

2. Dritter jede Person Oder Stelle auGerhalb der 
speichernden Stelle, ausgenommen der Betrof- 
fene Oder diejenige Personen und Stellen, die 
in den Fallen der Nummer 1 im Geltungsbe- 
reich dieses Gesetzes im Auftrag tatig werden, 

3. eine Datei eine gleichartig aufgebaute Samm- 
lung von Daten, die nach bestimmten Merk- 
malen erfaGt und geordnet, nach anderen 
bestimmten Merkmalen umgeordnet und aus- 
gewertet werden kann, ungeachtet der dabei 
angewendeten Verfahren. Nicht hierzu geho- 
ren Akten und Aktensammlungen, essei denn, 
daft Sie durch automatisierte Verfahren umge- 
ordnet und ausgewertet werden konnen. 



§3: Zulassigkeit der Datenverarbeitung 

Die Verarbeitung personenbezogener Daten, die 
von diesem Gesetz geschutzt werden, ist in jeder 
in §1 Abs. 1 genannten Phasen zulassig, wenn 
1. dieses Gesetz Oder eine andere Rechtsvorschrift 
Sie erlaubt Oder 



2. der Betroffene eingewilligt hat. Die Einwilli- 
gung bedarf der Schriftform, soweit nicht we 
gen besonderer Umstande eine andere Form 
angemessen ist, wird die Einwilligung zusam- 
men mit anderen Erklarungen schriftlich er- 
teilt, ist der Betroffene hierauf schriftlich be- 
sonders hinzuweisen. 



§10: Datenubermittlung innerhalb des offent- 
lichen Bereichs 

(1) Die Ubermittlung personenbezogener Daten 
an Behorden und sonstige offentliche Stellen ist 
zulassig, wenn siezur rechtmaGigen Erfullung der 
in der Zustandigkeit der ubermittelnden Stelle 
Oder des Empfangers liegenden Aufgaben erfor- 
derlich ist. Unterliegen die personenbezogenen 
Daten einem Berufs- Oder besonderem Amtsge- 
heimnis (§45 Satz 2 Nr.l, Satz 3) und sind Sie der 
ubermittelnden Stelle von der zur Verschwiegen- 
heit verpflichteten Person in Ausubung ihrer Be- 
rufs- Oder Amtspflicht ubermittelt worden, ist fur 
die Zulassigkeit der Ubermittlung ferner erforder- 
lich, daft der Empfanger die Daten zur Erfullung 
des gleichen Zweckes benotigt, zu dem Sie die 
ubermittelndeStelleerhalten hat. 



§36: Verarbeitung personenbezogener Daten 
zum Zweck der Ubermittlung in anonymisierter 
Form 

(1) Die in §31 Abs. 1 Satz 1 Nr. 2 genannten Per- 
sonen, Gesellschaften und andere Personen- 
vereinigungen sind verpflichtet, die gespeicher- 
ten personenbezogenen Daten zu anonymisieren. 
Die Merkmale, mit deren Flilfe bestimmte ano- 
n ymi si erte Daten derart verandern verandert wer- 
den konnen, daft Siesich auf eine bestimmte Per- 
son beziehen Oder eine solche erkennen lassen, 
sind gesondertzu speichern. DieseMerkmaledur- 
fen mit den anonymisierten Daten nicht zusam- 
mengefuhrt werden, essei denn, daG diedadurch 
ermoglichte Nutzung der Daten noch fur die Er- 
fullung des Zweckes der Speicherung oderzu wis- 
senschaftlichen Zwecken erforderlich ist. 

( 2 ) ... 

(3) Bei automatischer Datenverarbeitung ist die 
Durchfuhrung der in Absatz 1 vorgesehenen 
MaGnahmen durch entsprechendeVorkehrungen 
sicherzustellen. 
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Die European Science Foundation hatbestimmte 
Grundsatze und Richtlinien fur die Verwen- 
dung person enbezogener Daten zu Forschungs- 
zwecken herausgegeben. Einige Flauptpunkte 
sollen an dieser Stelle extrakthaft wiedergege- 
ben werden (n ah ere Erlauterungen bei Lecher, 
1988, S. 28 ff.): 

• Jede Verarbeitung person enbezogener Daten 
fur Forschungsziele setzt eine ausdrucklich 
gesetzliche Ermachtigung Oder die informier- 
te Einwilligung des Betroffenen voraus. 

• EineinformierteEinwilligung liegt vor, wenn 
die Betroffenen ausdrucklich und eindeutig 
daruber aufgeklart worden sind: 

a) dalS dieDatenerhebungfreiwillig ist; 

b) dalS die Weigerung der Daten erhebung kei- 
nerlei Konsequenzen hat 

c) welchen ZweckdasForschungsprojekt ver- 
folgt; 

d) wer Auftraggeber der Erhebung ist bzw. 
wer erhebt; 

• Die fur Forschungszwecke zur Verfugung ge- 
stellten person enbezogenen Daten sollten 
nicht fur andere Zwecke verarbeitet werden, 
insbesondere nicht fur solche, die spater fur 
den Betroffenen Konsequenzen haben. 

• Die Leiter von Forschungsprojekten, die mit 
der Verarbeitung person enbezogener Daten 
verbunden sind, sollten die Verantwortung 
dafur tragen, dalS die gemachten Angaben 
den aktuellen Daten schutz-Vorschriften 
auch dem momentan herrschenden Technik- 
stand entsprechen. 

Es darf aber nicht ubersehen werden, dalS 
es auch daten rechtlich problematische For- 
schungsstrategien gibt. In der Psychologie gibt 
esProjekte, bei denen eine voile Aufklarung der 
Beteiligten erst nach ihrem AbschlulS erfolgen 
kann. In solchen Fallen mulS diese Bedingung, 
in Verbindung mit dem Angebot desjederzeit 
moglichen Rucktritts, den Betroffenen ausdruck- 
lich erklartund von ihnen akzeptiert werden. 

Probleme konnen auch entstehen, wenn 
zum Beispiel ausGrunden einer Langsschnitt- 
untersuchung (mehrfache Befragungen bei der 
gleichen Person) eine I dentifikati on der Daten- 
satze gesi chert werden mulS. Hier liegt die ein- 



wandfreiesteMethodein der EinholungderZu- 
stimmung der Befragten, doch kann diese in 
Folge von Befurchtungen der Probanden die 
Verweigerungsraten deutlich erhohen. 



Schutz der Privatsphare 

Im Gegensatz zu den Datenschutzbestimmun- 
gen im engeren, gesetzlichen Sinn kann der 
Schutz der Intimsphare sowie das Problem des 
«Geheimnisverrates» in Evaluationsstudien 
sehr relevant werden. Wie man an der Darstel- 
lung einiger wichtiger Rahmenbedingungen in 
Diagramm vi/ 2 entnehmen kann, ist die Situa- 
tion fur «Berufspsychologen mit abgeschlossener 
Ausbildung» und andere Sozialwissenschaftler 
verschieden. Dies kann zu der etwas paradoxen 
Situation fuhren, dalS ein als Interviewer einge- 
setzter Sozialwissenschaftler dann unter §203 
StGB fallt, wenn der Leiter des Evaluations- 
projektesein Diplom-Psychologe ist, diese zu- 
satzliche Strafbewahrung des Schutzes der In- 
timsphare aber nicht besteht, wenn der 
Projektleiter eine andere Vorbildung hat. Dies 
entspricht in keiner Weise der Intention des 
Gesetzes, mitdiesem Paragraphen solltean sich 
die Arbeit der genannten Berufsgruppen er- 
leichtert werden, da es zum Beispiel im Rah- 
men psychologischer Therapien sicher leichter 
fallt, eine offene Gesprachsatmosphare zu er- 
zeugen, wenn der Klient zusatzlich zum per- 
sonlichen Vertrauen auch noch auf eine recht- 
liche Absicherung der Vertraulichkeit der 
Gesprachsinhaltebauen kann. 



Datenschutz auch bei Anderung der 
Rahmenbedingungen! 

Die Vertraulichkeit von Informationen ist auch 
ohne bose Absicht besonders dann gefahrdet, 
wenn diebefragtebzw. beobachtete Person und 
d er Proj ektm i tarbei ter u n terei nanderverbunde- 
nen Sozialnetzen angehoren (zum Beispiel Be- 
fragung von Studenten durch Studenten des 
gleichen Faches, Befragungen in raumlicher 
Nachbarschaft). Der Versuchung zur Verbrei- 
tung person enbezogener «Anekdoten» sollte 
man stets mit dem Hinweis auf die Rechtslage 
gemaR Diagramm VI/ 2 schon bei der Schulung 
der M itarbeiter entgegentreten. 
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Diagramm VI/ 2 

Wichtige rechtliche Rahmenbedingungen fur Psychologen 



Beachtung der Personlichkeitsrechte der 
Probanden 



Grundgesetz (GG) 

Artikel 1: Schutz der Menschenwurde 

Artikel 2: Freiheitsrechte 

Artikel 5: Recht der freien Meinungs- 

aulSerung 

Artikel 12: Freiheit der Berufswahl 



Psychologische Untersuchungen durfen in 
dem Umfang geschehen, wie Sie der Wurde 
desMenschen angemessen sind. DasEindrin- 
gen in den person I ichkeitsrechtlichen Bereich 
i st immer dann unproblematisch, wenn es 
d u rch d i e f rei e Sel bstbesti mmungdesPro ban - 
den ermoglicht wird. 



Erhebung im Rahmen eines Dienstvertrages 

• Verletzungen der Flaupt- und Neben- 
pflichten des Dienstvertrages fuhren all- 
gemein zu zivilrechtlichen Sanktionen (z. B. 
Sch aden sersatzan spruch e) 

Zu beachten sind weiterhin 

• Berufsgeheimnis§53 StPO 

• Geheimnisverletzung §203 StGB 



Rechtliche Situation des Beurteilens und 
Bewertens in der Berufsausbildung, hierzu: 
Betri ebsverf assu n gsgestz (BetrVG) 

• M itbestimmungsrechte des Betriebsrates 
beim Beurteilen und Bewerten im Betri eb: 
§94, §95, §98 BetrVG, §85 BetrV 

• M itwirkungsrecht der Jugendvertretung 
uber Beurteilungsbogen: §66-68, §70, §80 
BetrVG 



Relativ schwer zu losen ist das Problem veran- 
derter Zugangsberechtigungen zu Aktenmate- 
rial.Typisch ist hier etwa die Situation in Uni- 
versitaten, wo in Zusammenhang mit der 
Besetzung von Professorenstellen externeGut- 
achten eingeholt werden mussen, dienurdann 
wirklich aussagekraftig sind, wenn der Gut- 
achtenersteller von vertraulicher Behandlung 
ausgehen kann (bei alien anderen Regelungen 
wurdeeineerheblicheGefahr von Gefalligkeits- 
gutachten, evtl. auf wechselseitiger Basis, ent- 
stehen). Dieses Material wird gemeinsam mit 
den anderen Person alunterlagen ublicherweise 
im Dekanat gespeichert, die Bewerber haben 
dazu keinen Zutritt. Nach Ernennung durch 
den Minister (eskann oh n e wei teres sein, dalS 
nicht der in den Gutachten besondersgut ab- 
schneidende Erstplazierte, sondern vielleicht 
ein geradenoch akzeptabel erscheinender Kan- 
didat schlieRlich die Position erhalt) dauert es 
oft nicht lange, bis der Oder die «Neue» zum 
Dekan gewahlt wird Oder eine andere, Zugang 
zu den Dekan atsunterlagen bedingende Funk- 
tion in der akademischen Selbstverwaltung 
ubernimmt. Damit automatisch verbunden ist 
dieZugangsmoglichkeitauch zu Personal unter- 



lagen. Eserfordert ein sehr hohes MaR der Ver- 
innerlichung abstrakter Normen, nicht in den 
dieeigenen Person betreffenden Vorgangen zu 
schmokem. Strukturell Gleiches gilt fur den 
hierarchischen Aufstieg in Verwaltungen, Schu- 
len, Kliniken und Unternehmen. Fur Evalua- 
tionsprojekte wichtig kann dieses strukturelle 
Problem werden, wenn die Bewertung von 
MaRnahmen eng mit Personen verknupft ist. 
Diestrifftzum Beispiel bei Untersuchungen zur 
Bewertung verschiedener Weiterbildungssemi- 
narezu, woes bei unzureichenderAnonymisie- 
rung der Unterlagen durchaus passieren kann, 
daR nach einem beruflichen Aufstieg einer der 
bewerteten Seminaranbieter mit Interesse liest, 
was seine jetzigen Untergebenen damals an 
Kritikpunkten genannt haben. Uberlegungen 
dieser Art sprechen ubrigensdafur, in Zweifels- 
fallen eh er extern eEvaluatoren heranzuziehen, 
als die entsprechenden Informationen firmen- 
intern auszuwerten. 

Ein theoretisch bestehendes, nach den ver- 
fugbaren allgemeinen Informationen aber 
nicht allzu gravierendes Problem durfte der 
Geheimnisverrat in Kombination mit finanzi- 
ellen Interessen sein. Man muG an dieseMog- 
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lichkeit aber bei wirtschaftsorientierten Eva- 
luationsstudien (etwa formative Produkt- 
evaluation, alle im Zusammenhang mit Mar- 
ked ng-Maftnah men durchgefuhrten Studien) 
denken. Man kann trotz dem Fehlen entspre- 
chender fundierter Geruchte nicht ausschlie- 
Ren, dalS Dingedieser Art vorkommen (vermut- 
lich hatten im konkreten Fall alle Beteiligten 
ein erhebliches Interesse, den Vorgang mog- 
lichst nicht allzu publik werden zu lassen). An- 
dererseitskann aberangenommen werden, daR 
das bei sozialwissenschaftlich gestutzter Evalua- 
tion erhobene Material selten einen so hohen 
Wert hat, daRsich dasRisiko lohnt. Dieeffekti- 
ven informellen Kommunikationskanale zwi- 
schen den Unternehmen machen einemittel- 
fristige Aufdeckung eines solchen Verhaltens 
sehr wahrscheinlich, und selbst bei Vermei- 
dung einer Strafanzeigedurfteessehrschwierig 
sein, in diesem Berufsfeld spater noch Karri ere 
zu machen. 



6.2.3 Auswertungsplane 

Esistbei einem real istisch groRen sozialwissen- 
schaftlichen Evaluationsprojekt so gut wieaus- 
geschlossen, samtliche denkbaren Auswertun- 
gen durchzufuhren. Nimmt man als Beispiel 
eine Arbeit mit 40 berucksichtigten Variablen 
(was vor allem bei Verwendung von Codie- 
rungsschemata fur Interviews Oder Verhaltens- 
beobachtungen, noch starker als bei Fragebo- 
gen, eine sehr kleine Zahl ist), ergeben sich 
bereits780 mogliche, an der EDV mitgeringem 
Zeitaufwand berechenbare Korrelationen. Da 
man jetzt aber jede Variable (als mindestens 
zweistufigen) Moderatornehmen kann, wasim 
ubrigen auch fur die wichtige Identifikation 
von Wechselwirkungen sehr sinnvoll sein 
kann, bekommt man selbst bei nur einer zwei- 
stufigen Einteilung potentieller Moderatoren 
weitere 29640 Korrelationen. Geht man gar 
dazu uber, mehrere Variablen gleichzeitig als 
Moderatoren zu verwenden (zum Beispiel die 
Untersuchung der Fragestellung, ob die Kom- 
bination einer bestimmten Alters- und Be- 
rufsgruppe einen von der Gesamtstich probe 
verschiedenen korrelativen Zusammenhang 
zwischen einer bestimmten Form der Arbeits- 
gestaltung und der Arbeitszufriedenheit zeigt), 
wird mit Leichtigkeit die Millionengrenze fur 



die Anzahl der statistischen Ergebnisse uber- 
schritten. Selbst wenn man den unter metho- 
dischen Gesichtspunkten naturlich unsinnigen 
Trick wahlt, an der EDV nur die «sehr signifi- 
kanten» Resultate ausdrucken zu lassen, erhalt 
man auch bei rein zufalligem Daten material in 
diesem Fall ca. 10000 «statistisch auffallige» 
Einzelbefunde. Es ist selbstverstandlich, daR 
einesolcheAuswertungsstrategieabsolut unsin- 
nig ware. 



Rechtzeitige Auswahl der 
Auswertungsdetails 

Die einzige Alternative zu einer allumfassen- 
den Auswertung ist, von Anfangan gezielteini- 
gedernahezu unendlich vielen Auffalligkeiten 
als potentiell erwartbar auszuwahlen. Dies hat 
zur Folge, daB man: 

• Nur jene Variablen in der Auswertung be- 
rucksichtigt, die man subjektiv fur «wichtig» 
halt. 

• Vorher mit dem Auftraggeber abklaren muR, 
ob es bzgl. der vermuteten Wichtigkeit von 
Effekten diegleichen Meinungen hat. 

• Sehr sorgfaltig pruft, ob man mit dieser Stra- 
tegic nicht anstelle einer objektiven Befund- 
erhebung nur die eigenen Vorurteile bestar- 
ken mochte. 

• Stets der Gefahr ausgesetzt ist, daR anders- 
denkende Leser des Evaluationsberichtes die 
gezielte Manipulationsabsicht bei der Daten- 
auswertung unterstellen, auch wenn dies im 
Einzelfall nicht gegeben sein sollte. 

Die Gefahr der Bestatigung der Vormeinung 
entsteht dadurch, daR man eben nur jene Ef- 
fekte ausweist, die man von Anfang an vermu- 
tet hat. So kann man zum Beispiel bei einer 
Schu I system untersuchung die KlassengroRe, 
Details des Lehrerverhalten etc. erheben, aus- 
schlieRlich mit dem Ziel, diese Variablen als 
Kovariate zur praziseren Flerausarbeitung des 
«eigentlich wichtigen» Systemunterschiedes 
heranzu ziehen. Man wird in Anbetrachtderbei 
ausrei ch en der Tren n sch arfe stets wi derl egbaren 
Nullhypothese (vgl. dazu Abschnitt 5.3.1) auf 
diese Wei se auch mit guter Chance einen stati- 
stisch bedeutsamen System unterschied ermit- 
teln. Ebenso gut konnteman aber auch umge- 
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kehrt vorgehen und prufen, ob nicht die aus 
der subjektiven Sicht nur als Storeffekte aufzu- 
nehmenden Variablen um vieles bedeutsamer 
sind als die eigentlich fur wichtig gehaltenen, 
was man entweder direkt (dann aber in Kon- 
fundierung mit dem Systemeffekt) Oder unter 
Auspartialisierung des Beitrages der System- 
unterschiede machen kann. Schon aufgrund 
dieser geanderten Reihenfolge der Aufnahme 
von Erklarungsvariablen in lineare Modell- 
ansatze(s. Abschnitt 5.3.2) sind entsprechende 
Ergebnisunterschiede zu erwarten, die dann 
interpretativ entsprechend der eigenen Vor- 
meinung besonders herausgearbeitet werden 
konnen. 

Antizipatorische Konsensfindung 

Eine theoretisch denkbare Losung ware, die 
Auswahl der ausgewerteten Effekte auf wissen- 
schaftliche Erkenntnisse zu grunden, zum Bei- 
spiel dann, wenn bereits aus Vorstudien das 
Auftreten mancherZusammenhange besonders 
plausibel erscheint. Dieser Wegscheitertbei den 
meisten Evaluationsstudien aber daran, daft 
sich auswissenschaftlich-theoretischen Uberle- 
gungen Oder auch aus der Ful le der Detail- 
ergebnisse von Vorstudien fur praktisch jede 
Zusammenhangsanalyse einezumindest nach- 
traglich sehr plausibel klingende Begrundung 
geben laRt. Esdurftedaher zweckmaRiger sein, 
die Auswertungsstrategie vorwiegend nutzen- 
bezogen (naturlich nicht unter volligem Ver- 
zicht auf die Kenntnis von wissenschaftlichen 
Vorergebnissen) aufzubauen und nach Mog- 
lichkeit rechtzeitig folgende Schritte einzulei- 
ten: 

• Versuch einer Konsensbildung vorwiegend 
mit Wissenschaftlerkollegen, die eine gegen- 
uber den evaluierten MaRnahmen gegentei- 
lige Voreinstellung haben und/oder anderen 
w i ssen sch aft I i ch en «Sch u I en » an geh oren . 

• Mit den von den Evaluationsergebnissen be- 
troffenen Praktikern denkbare Auswertungs- 
ergebnisse durchspielen (im Prinzip analog 
zur Szenariotechnik bzw. Planspielen, vgl. 
4.1.3), und mit diesen diskutieren, welche 
Einwande sie gegen die aus ihrer Sicht uner- 
wunschten Ergebnisse vorbringen wurden. 
Diese Hinweise auf denkbare alternative Er- 
klarungsansatze konnen gesammelt und in 



das geplante Auswertungsprogramm uber- 
nommen werden, so daR man deren relative 
Bestatigung Oder Widerlegung bereits mit in 
den AbschluRbericht aufnehmen kann. 

• Vorallem bei offentlichkeitswirksamen Eva- 
luationsvorhaben nach Moglichkeit rechtzei- 
tig klaren, welche Auswertungslucken vor 
dem Hintergrund aktueller politischer Aus- 
einandersetzungen in derOffentlichkeit, also 
insbesonderebei betroffenen Verbanden und 
Parteien, auf der Basis des vorl auf i gen Planes 
gesehen werden; dies setzt allerdings die 
Schaffung eines ausreichend dichten Netzes 
informeller Kontakte voraus und sollte im 
ubrigen niemalsohneAbstimmung mit dem 
Auftraggeber durchgefuhrt werden. 

Nach Durchfuhrung solcher Vorarbeiten hat 
man zwareinen vertretbaren Auswertungsrah- 
men, aber meist auch das Problem, dal3 dieViel- 
zahl der untersuchten Einzelergebnisse kaum 
noch rezipierbar ist. Dies macht dann eine 
nachtragliche Beschrankung bei der Bericht- 
legung erforderlich, in deren Verl auf vieles an 
guten Vorarbeiten verlorengehen kann. 



6.3 Berichtlegung 

Das letztlich fur die Praxis relevant werdende 
Ergebnis einer Evaluationsstudie ist nicht das, 
was im Laufe des Projektes von den dort Betei- 
ligten erfahren wurde, auch nicht das, was in 
den entsprechenden schriftlichen und mundli- 
chen Berichten enthalten ist; relevant werden 
hochstens jene Informationen, die bei den 
Adressaten der Berichteankommen. 

WiegrolS dieUnterschiedezwischen «gesen- 
deter» und «empfangener» Information sein 
konnen, zeigt etwa die Arbeit von Czerwenka 
et al. (1988) zur Bewertung der Schule durch 
Schuler. Grundlage waren Aufsatze, in denen 
Schuler verschiedener Klasenstufen und Schul- 
formen in der Bundesrepublik Deutschland ei- 
nem «Wesen von einem anderen Stern»schil- 
dern sollten, was «Schule» ist. Diese Aufsatze 
wurden dann unter anderem dahingehend aus- 
gewertet, ob Hinweise fur ein eher positives 
Oder negatives Lehrerbild enthalten waren, ob 
dieSchuleeher Freudeoder keineFreude macht 
usf. Die Resultate, die auch in den schriftlichen 
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Pressemitteilungen erlautert wurden, zeigten 
u.a. ein Uberwiegen von «wenig Freude»an der 
Schulegegenuber «Freude» (besondersdajtlich 
etwa in der 11. Klassenstufe, wo insgesamt 13% 
positiv und 27% negativ waren). Ahnliche 
Ergebnisse erbrachten die Aussagen in diesen 
Aufsatzen uber die Lehrer. Die Aufregung uber 
diese Arbeit war vor allem bei den Lehrerver- 
banden enorm, was bei bloRer Durchsicht des 
AbschluRberichtes fur den Wissenschaftler ei- 
gentlich unverstandlich bleibt. Erklarbar wird 
dieAufregung, wenn man dieRezeption dieser 
Ergebnisse in derPresseliest. Beispielefur(meist 
groR und fett gedruckte) Uberschriften: «Schu- 
ler klagen uber Leistungsdruck», «Schlechte 
Noten fur das Bildungssystem: Deutsche Schu- 
ler haben groRten Frust» Oder gar «Die Lehrer 
stellen haufig Feindbild dar» (die letzteren Bei- 
spiele ubrigens aus dem angesehenen «Mun- 
chener Merkur»). Noch krasser formulierte die 
«Abendzeitung»: «Bayerns Schuler: Unsere Leh- 
rer sin d Versager!». Solche Beispielezeigen viel- 
leicht, welchen (absichtlichen Oder tatsachlich 
auf die Rezeption zuruckfuhrbaren) MiRver- 
standnissen dieBerichtlegung von Evaluations- 
studien ausgesetzt sein kann. 

Im Abschnitt 6.3.1 wird zunachst darauf einge- 
gangen, daR jeder Berichtlegung eine sorgfal- 
tige Zielgruppenanalyse vorausgehen sollte. 
Dann anschlieRend (6.3.2) werden Probleme 
der Informationsverdichtung behandelt, dieei- 
nerseits unvermeidlich, andererseits aber gera- 
de wegen der ublichen «projektinternen Spra- 
che» leicht manipulativ wirken konnen. Im 
letzten Abschnitt (6.3.3) wird auf einige Fragen 
bei mundlicher Presentation verwiesen. 



6.3.1 Zielgruppenanalyse 

Wahrend des Studiums ist es ublich, daR man 
BerichteausschlieRlich furahnlich vorgebildete 
Personen verfaRt. Typische Konsequenzen sind: 

• Ein sehr komplexer, durchschnittlichekogni- 
tive Fahigkeiten der Sprachverarbeitung weit 
uberfordernder Satzbau. Fur wissenschafts- 
interne Kommunikation ist eine solche 
Struktur oft sinnvoll, fur andereZielgruppen 
und insbesondere fur Konsumenten von 
Massenmedien aber dysfunktional. 



• Dienahezu selbstverstandliche Verwendung 
von Fachausdrucken, wobei weniger das 
«Fremdwort»fur die Berichtlegung an anders 
vorgebildete Berufsgruppen stort, sondern 
dashoheAbstraktionsniveau und diejeweils 
definitionsabhangige Bedeutung der verwen- 
deten Begriffeund Konzepte. 

• Der haufigeGebrauch von einschrankenden 
Nebenbemerkungen und Konjunktiven; For- 
mulierungen wie «... es konnte sein, wenn 
das nicht ware, vielleicht stimmt es doch!» 
entsprechen meist der wissenschaftlichen 
Redlichkeit, sind aber fur den Laien wegen 
mangelnder Flandlungsrelevanz inakzepta- 
bel. 

• Eine unzureichende Beachtung wertender 
Nebenbedeutungen; so ist eine «negative 
Schu I erau Rerung uber Lehrer» fur den Wis- 
senschaftler eine bestimmte Auswertungs- 
kategorie, fur den Laien ist «negativ» mit ei- 
nerNotevon Funf oderSechsgleichzusetzen. 

Losbar ist die Abstimmung der Berichtlegung 
auf den Adressaten am einfachsten dann, wenn 
der Evaluationsbericht nur an eine ganz be- 
stimmte Personengruppegerichtet ist, zum Bei- 
spiel an die Weiterbildungsabtei lung eines Un- 
ternehmens Oder an die verantwortlichen 
Produktmanager bei einem Packungstest. Wenn 
man in solchen Situationen 

• dieauch «unsachlichen», emotionalen Kom- 
ponenten desAuftrages 

• den Verwertungs- bzw. Entscheidungszusam- 
menhang 

• den «Sprachstil»der Adressatengruppen, ins- 
besondere deren Fachtermini 

beachtet, sollte der Bericht ein Erfolg werden. 
Selbstverstandlich ist, daR man bei derauReren 
Form diedortigen Standards einhalt; diese sind 
vor allem in der Wirtschaft bzgl. der optischen 
und (druck-)technischen Gestaltung um vieles 
anspruchsvoller als im universitaren Bereich. 

Bei sehr heterogen en Adressatengruppen, wie 
sievor allem bei groReren, offentlich finanzier- 
ten Evaluationen ublich sind (etwa bei einer 
Untersuchung im Schulbereich: Ministerium, 
Lehrerschaft, allgemeine Offentlichkeit, viel- 
leicht auch noch Wissenschaftler) ist die 
zielgruppenorientierte Berichtlegung besonders 
schwierig. Man wird naturlich verschiedene 
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Varianten erarbeiten, muR aber darauf achten, 
dalS sich dabei nicht scheinbare Widerspruche 
ergeben. Generelle Erfolgsregeln gibt es nicht; 
in jedem Fall sollteman aber bei den einzelnen 
Formulierungen Oder Bezeich nun gen sorgfaltig 
auf mogliche MiRverstandnisseachten und je- 
des Konzept von wenigstens einem Angeho- 
rigen der relevanten Teilgruppen (ersatzweise 
von Kollegen, die in diesen Bereichen beson- 
dereErfahrung haben) vorder Publikation hin- 
sichtlich dieses Aspektes prufen lassen. 

Beispielefur Prasentationsformen gibt Diagramm 
VI/ 3. 



Diagramm VI/ 3 

Mogliche Prasentationsformen von 
Evaluationsergebnissen 



• Fachbericht 

• kommentierteZusammenfassung 

• Veroffentli chung in einer Fachzeitschrift 

• popularwissenschaftliche 
Veroffentli chung 

• Pressekonferenz 

• Symposium 

• Vorstellung in den Medien 

• Workshop mit M itarbeitern in einer 
Unternehmung 

• Poster, Broschuren 

• person I iche Diskussion 



6.3.2 Informationsverdichtung 

Eines der ungelosten Probleme sozialwissen- 
schaftlicher Projektforschung ist die notwen- 
dige Begrenzung des Umfanges des tatsachlich 
handlungsrelevant werdenden Berichtes. Bei 
groReren, vielleicht auch wissenschaftlich in- 
teressanten Projekten ist eine umfangreiche 
Dokumentation in Buchform ublich, dieleicht 
deutlich mehr als 500 Seiten umfassen kann 
(Beispieledazu finden sich in Aurin etal. 1986; 
Seiffge-Krenke, 1981). Der Zwang zur wissen- 
schaftlichen Redlichkeit der Darstellung erfor- 
dert dabei umfangreiche Tabellen, die (wegen 



der Moglichkeit, daR auch Laien das Material 
lesen) zusatzlich relativausfuhrlich interpretiert 
werden. Man kann nun von keinem an der Ent- 
scheidung interessierten Auftraggeber, schon 
gar nicht von einem unter Zeitdruck arbeiten- 
den Journalisten Oder Laien erwarten, dieses 
umfangreiche Material durchzuarbeiten. AuRer 
der Zeitproblematik fehlen oft die Detailkennt- 
nisse, und praktisch immer das Interesse (eine 
Ausnahme findet sich bei advokatorischer Re- 
zeption von Evaluationsergebnissen, siehe un- 
ten). 

Um uberhaupt vom Auftraggeber rezipiert zu 
werden, muR dieses Material in einen kurz les- 
baren Bericht zusammengefaRt werden, der - 
solange man ihn als Wissenschaftler noch ir- 
gendwie vertreten mochte- meist zwischen 80 
und 100 Druckseiten aufweist. Da dies noch 
immer zuviel ist, muR diesem Bericht eineZu- 
sammenfassung beigelegt werden, die aber mit 
ca. 3 bis 6 Seiten fur jemand, der nur wissen 
mochte, welche von zwei denkbaren MaR- 
nahmenvarianten er realisieren soli, noch im- 
mer unnotig lang ist. Moglicherweise ent- 
scheidungsrelevant ist meist nur eine ca. 
einseitige «Kurzdarstellung» Oder «BeschluR- 
vorlage». 

Dieser InformationsverdichtungsprozeR ist 
unvermeidlich, er findet auch dann statt, wenn 
sich wissenschaftlich tatige Evaluatoren den 
entsprechenden Arbeiten entziehen. In diesem 
Fall werden die entsprechenden Kurzdar- 
stellungen durch Sachbearbeiter des Auftragge- 
bers erfolgen, was der Ubereinstimmung der 
Kurzdarstellung mit den tatsachlichen Projekt- 
aussagen nicht immer dienlich ist. 

M it diesem InformationsverdichtungsprozeR 
verbunden ist naturlich diekaum vermeidbare 
Gefahr, die Ergebnisse verzerrt wiederzugeben. 
Unabhangig von der bestehenden Moglichkeit 
absichtlicher Manipulation wirken zahlreiche 
gut untersuchte psych ologische Prozese (etwa 
selektive Aufmerksamkeit, Flalo-Effekte, Disso- 
nanzreduktionsmechanismen) auf den Verfas- 
ser ein. Eine ausfuhrlichere Darstellung findet 
sich bei Wottawa, (1981). Essoll nochmalsbe- 
tont werden, daR diese Mechanismen auch bei 
groRter Sorgfalt nur bedingt einzuschranken 
sind und man aus entsprechenden Beobach- 
tungen nichtauf absichtlicheVerzerrungen der 
Autoren schlieRen sollte. 
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Nahezu unvermeidbare Angriffspunkte 

Die Kombination aus notwendig reduzierter 
Informationsdarstellung und derhohen Plausi- 
bilitat von Storfaktoren dabei fordert naturlich, 
geradebei emotional kontroversen Ergebnissen, 
Kritiker mit anderer Meinung heraus. Diesesind 
im allgemeinen bei ihrer Argumentation bzw. 
Informationsdarstellung mindestens den glei- 
chen Verzerrungen ausgesetzt wie die ei gent- 
lichen Autoren, haufig sogar in starkerem 
MalSe, da siesubjektiv dasGefuhl haben, einer 
verzerrten Darstellungentgegentreten zu mussen 
und nur durch Uberpointierung ihres Stand- 
punktesbei dem Adressaten eine letztlich aus- 
gewogene Meinung errei chen zu konnen. 

Fast immer zur Abwertung veroffentlichter 
Eval uati on sberi ch te mogl i ch e Argu men tati ons- 
figuren sind: 

• Offensichtliche methodische Schwachen 
(da(5 es diese bei jedem groBeren Vorhaben 
gibt, wurde zum Beispiel in Abschnitt 5.2.2 
begrundet). 

• Es wurde nicht alles berucksichtigt und aus- 
gewertet, was man unbedingt hattetun mus- 
sen (siehe 6.2.3) 

• Dieverwendeten Operational isierungen bzw. 
Meftmethoden sind fehlerhaft (vgl. dazu Ab- 
schnitt 4.2.3). 

• Die Autoren widersprechen sich selbst (es ist 
bei umfangreicheren Berichten sehrunwahr- 
scheinlich, da(3 sich nicht inhaltlich ahnli- 
che, aber in der Aussagerichtung verschiede- 
ne Kleindetailergebnisse und entsprechende 
Interpretationen finden). 

• Die Ergebnisse sind nur singular und nicht 
verallgemeinerbar (ein oft zutreffendes und 
im ubrigen rhetorisch sehr gutes Argument, 
da sich grofte Evaluationsstudien im Regel- 
fall nicht wiederholen lassen). 

• Die Ergebnisse sind often si chtlich unsinnig, 
da sie entweder gesicherten wissenschaftli- 
chen Ergebnissen widersprechen (bei sorgfal- 
tiger Suche lassen sich fast immer einige wi- 
dersprechende Befunde in der Literatur 
eruieren) Oder von angesehenen Experten 
negativ bewertet wurden (in Anbetracht der 
Plural itat wissenschaftlicher Meinungen fin- 
det sich mit etwas Muhe auch dafur ein Be- 
leg). 



Auch hier ist wieder die Schwierigkeit, daR alle 
diese Kritikpunkte voll zutreffen konnen, die 
Moglichkeit von schlechten, elementaren pro- 
fessionellen Standards nicht genugenden 
Evaluationsprojekten ist naturlich gegeben. Da 
sich aber die Argumente nahezu bei jeder, auch 
noch so sorgfaltigen Studie (falls diese ausrei- 
chend komplex angelegt wurde) verwenden 
lassen, bleibt es dem Kritiker der Evaluations- 
projektkritiker (mit beliebiger Verallgemeine- 
rung dieses Meta-Kritiker-Begriffes) uberlassen, 
die Angemessenheit der Gegendarstellung zu 
bewerten. Im praxisbezogenen Evaluations- 
bereich greifen die dafur in der Wissenschaft 
etablierten Mechanismen (einebreite, vielfalti- 
ge und relativ wenig interessensbezogene Dis- 
kussion, ein allmahliches «Vergessenwerden» 
unzutreffender Interpretationen) aufgrund des 
meist bestehenden Zeitdruckesnicht. Losungen 
fur dieses Problem konnen nicht angeboten 
werden - I eider. 



6.3.3 Mundliche Prasentation 

Fur diese, besonders wichtige Form der Ergeb- 
nisdarstellung gilt zunachst ebenso wiefur den 
schriftlichen Bericht eine besondere Betonung 
der «Zuhorerfreundlichkeit». Die technischen 
Kompetenzdefizite in der mundlichen Repra- 
sentation sind bei vielen Studienabgangern 
noch gravierender als bei schriftlichen Darstel- 
lungen, selbst fur die Benutzung ublicher Me- 
dien fehlt haufig sowohl theoretisches Wissen 
als auch praktische Ubung. Selbstverstandlich 
so 1 1 te d i e f rei e, gegeben en f al I s med i en gestutzte 
(Dias, Overhead-Folien) Redesein, dasVorlesen 
vorbereiteter Manuskripte ist fur die Zuhorer 
meist trostlos. Das Schreiben einesTextes, der 
bei mundlichem Vortrag die Verstandlichkeit 
derfreien Redeerreicht, ist eine ausgesprochene 
Kunst, die nur wenige beherrschen. Zumindest 
elementare Grundsatze der Rhetori k sol Ite man 
beachten, sie finden sich zum Beispiel in 
Hirsch, 1985, Schuh und Watzke, 1983. 

Im ubrigen durfte(abgesehen von langfristigen, 
geistesgeschichtlich bedingten Meinungswel- 
len) dem Ansehen der Wissenschaft kaum etwa 
so geschadet haben, wiediekontroverseoffent- 
licheDiskusion zu Evaluationsthemen, zum Bei- 
spiel bzgl. gesetzlicher Regelungen, der Energie 
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versorgung Oder der Schu I organisation. Die 
Unterstellung simpler Kauflichkeit wie etwa 
durch den damaligen Vorsitzender der Gewerk- 
schaft Erziehung und Wissenschaft (Frister, 
1972) ist zwar fur alle an Evaluationsvorhaben 
beteiligten WissenschaftlereineZumutung, aber 
in Anbetracht der dargelegten unvermeidbaren 
Probleme bei Evaluationsprojekten und dem 
fehlenden Kenntnisstand uberdieseSchwierig- 
keit auch bei sich selbst kompetent fuhlenden 
Laien psychologisch verstandlich. Im ubrigen 
hat sicher auch der manchmal bedauerlich Stil 
von «wissenschaftlichen» Diskussionen in der 
Offentlichkeit ganz wesentlich dazu beigetra- 
gen, das Ansehen (nicht nur, aber besonders) 
der Sozialwissenschaften zu schadigen. Tatsach- 
lich fuhren verschiedene Formen der mundli- 
chen Darstellung Oder Diskussion von Evalua- 
tionsergebnissen zu Rollenzwangen, dieeineim 
Extrem selbst nicht mehr so ganzgerechtfertigt 
erscheinende Uberpointierung von Darstellun- 
gen nahelegen. Wenn man zu einer Veranstal- 
tung schon als «Anwalt» fur eine bestimmte 
Position gemeinsam mit einem Kollegen, der 
die gleiche Rolle fur eine andere Auffassung 



ubernimmt, eingeladen wird und zusatzlich 
vielleichtnoch in dem jeweiligen sozialen Netz- 
werk der zu einer bestimmten Meinung nei- 
gendeGruppeeingebunden ist, i stein e«gefarb- 
te» Betrachtungsweisesehr naheliegend. Da der 
Kollege den analogen Zwangen unterliegt, 
kann man sich wechselseitig so weit steigern, 
dalS zum SchlulS die Glaubwurdigkeit tatsach- 
lich fraglich wird und der Stil der AulSerungen 
vi el I eicht manchmal an der Grenze desen liegt, 
was man vor sich selbst gerne vertritt. Interes- 
sant ist das Phanomen, das nach dem off i zi el - 
len Teil solcher Veranstaltungen durchausein 
emotional herzliches Verhaltnis zu dem Kon- 
trahenten bestehen kann und man sich eigent- 
lich daruber einig ist, dalS man jetzt ein bi 15- 
chen ubertrieben hat. 

Es ist schade, dalS sich weder bei offentlich- 
politischen noch bei kleineren, etwa fur einen 
bestimmten Konzern Oder eine bestimmte Kli- 
nikrelevanten Evaluationsvorhaben ein berufs- 
ethisch begrundeter Konsens uber akzeptable 
Verhaltensweisen gerade bei der mundiichen 
Berichtlegung ergeben hat. Flier bleibt noch ei- 
nigeszu tun. 
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Ubersicht Kapitel 6: 

Durchfuhrung von Evaluationsstudien 



6.1 

Organisatorische Fragen 

Fragen der Personalfiihrung 

GroGfirma alsArbeitgeber 

• meist professionelles Personal- 
management & strukturierte 
Hierarchie 



Kleinere Unternehmen & private Kleininstitute 



aus der Sicht des Arbeitgebers 

• Mangel an fachlich qualifizier- 
tem Personal 

• InformelleMachtstellungvon 
Spezialisten 

• Unerwartete Kundigungen Oder 
Ausfalle 

• Mangel an Personal zur 
Ubernahmevon Projekt- 
M anagement-Aufgaben 



aus der Sicht der M itarbeiter 

• Unsicherheit des Arbeitsplatzes 

• BeschrankungaufSpezialisten- 
tatigkeit 

• geringeoder keineAufstiegs- 
chancen 

• geringeUnterstutzung bei der 
individuellen Weiterbildung 



Kontrolltechniken des Projektverlaufes 



Zeitpl anung 

• detaillierteZeitplanung bei der 
Projektplanung 



• Anderung der Zielsetzung des 
Projektes 

• Uberlappungsprozesse 



Kostenplanung 

• Gegenuberstellung der 
geplanten Kosten mit veraus- 
gabten Betragen 

Krisenmanagement 

Typische Beispiele 

• Unbekannteoder vom 
Auftraggeber versch wiegene 
Nebenwirkungen 

• Methodenartefakte 



Qual itatsstandard 

• laufendeKontrollederdem 
Auftraggeber zugesicherten 
Qualitatsstandards 



• Nicht vorhersehbare Reaktion 

• Personalausfalle 

• absolut Unvorhersehbares 



6.2 

Auswertungsarbeiten 

Datenerhebung 



Problemebei der Interviewerhebung 
• Schlechte Arbeitskonditionen, 
f eh I erh afte Ad ressen vo rgaben , 
schlecht aufgebaute Fragebo- 
gen, Interviewer- bzw. Unter- 
suchungsleitereffekte, Quoten- 
vo rgaben, Bezahlung nach 
erfolgreich durchgefuhrten 
Interviews 



Hauptproblem bei der postal ischen 
Befragung 

• Rucklaufquote 

Vorbeugende M aGnahmen 

• Absender der Probanden auf dem 
Couvert 

• Ausstellen von Code-Nummern 
auf den Fragebogen 

• Ruckcouvert mit Projektnummern 



Datenaufbereitung 

Probleme 

• Kodierfehler 

• fehlerhafte Dateneingabe 

Vorbeugende M aGnahmen 

• Doppelarbeiten 

• Bezahlung nach Zeit und nicht 
nach «Stuckzahl» 

• Verrechnung gefundener Fehler 

• Plausibilitatskontrollen 



Datenauswertung 

Probleme 

• Verwechslung von Variablennummern Oder Codes 

• Selbstentwickelte Programme 
Vorbeugende M aGnahmen 

• sorgfaltige Arbeit 

• semantische Plausi bi I itatskontrol le 



Datenschutz 

• Beachtung des Bundesdaten- 
schutzgesetzes und der grund- 
satzlichen Gesetzlichen Richt- 
linien zum Schutz der Privat- 
sphare 



6.3 

Berichtlegung 

Zielgruppenanalyse 
Abstimmung der Berichtlegung mit 
den Adressaten unter Beachtung 
von: 

• Sprachstil der Adressatengruppen 

• Verwertungs- bzw. 
Entscheidungszusammenhang 

• unsachliche- emotionale 
Komponenten des Auftraggebers 



I nformati onsverdi chtung 

Probleme 

• Absichtliche Manipulation 

• PsychologischeProzesse, z.B. 
Selektive Aufmerksamkeit, Halo- 
Effekt, Dissonanzeffekte 



Mundliche Prasentation 

• Beachtung unterschiedlicher 
Prasentationsmbglichkeiten von 
Eval uation sergebn i ssen 

• Unterstutzung der Prasentation 
durch Medien bzw. 

M od erat i o n stech n i ken 

• Vorteil advokatorischer 
Darstellung 
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7. Ausblick: Bewertung 
sozialwissenschaftlicher Evaluation 



Die Kriterien fiir die Bewertung sozialwissen- 
schaftlich gestutzter Evaluation stellen sich un- 
terschiedlich dar, je nachdem, ob es um die 
Bewertung eines einzelnen Projektes Oder, glo- 
baler gesehen, um das Vorhandensein solcher 
Arbeiten uberhaupt geht (Abschnitt 7.1 bzw. 
7.2). Zum AbschlulS wird versucht, einige- not- 
wendig subjektive gefarbte - Zukunftsperspek- 
tiven dieses Bereichesaufzuzei gen (7.3). 

7.1 Bewertungskriterien 
einzelner 

Evaluationsvorhaben 

Wie bei jeder MalSnahme ist auch fiir die Be- 
wertung von Evaluationsprojekten zwischen 
den Nutzenaspekten zu unterscheiden, diemit 
den Ergebnissen selbst verbunden sind und den 
Aspekten, die schon durch die Durchfuhrung 
des Projektes, jedoch unabhangig von den Er- 
gebnissen entstehen. 



Ergebnisabhangige Aspekte 

DerNutzen durch die Ergebnisse ist im wesent- 
lichen eine Verbesserung der Entscheidungen, 
um deretwillen das Projekt durchgefuhrt wur- 
de. DasAusmalS und die Effizienz davon kann 
nur im jeweiligen Einzelfall bewertet werden; 
da in abseh barer Zeit nicht mit einer irrationa- 
len Evaluationseuphorie zu rechnen ist, wer- 
den i.A. Evaluationsstudien nurdann durchge- 
fuhrt, wenn einesehrguteChancebesteht, dalS 
die Ergebnisse in ihrem Nutzen die Aufwen- 
dungen ubersteigen. 



Schwieriger abzuschatzen ist der Schaden, 
bzw. die «Kosten», die durch Evaluations- 
ergebnisseverursacht werden konnen. EinTeil- 
aspekt davon ist das Problem unrichtiger Er- 
gebnisse, wiesiedurch unzureichende Designs, 
schlechter bzw. verzerrter Messung, falsche 
Datenauswertung, Interpretation und Rezepti- 
on der Ergebnisse entstehen konnen. Solchelrr- 
tiimer, die zu projektgestutzten Fehlentschei- 
dungen fuhren, mussen durch die fachliche 
Kompetenzder Evaluatoren so gering wiemog- 
lich gehalten werden. Siesind vor allem dann 
zu befurchten, wenn relative Laien selbst Stu- 
dien durchfuhren, zum Beispiel deshalb, weil 
dem «Auftraggeber» Oder Vorgesetzten (zum 
Beispiel in einer Klinik, einer Firma, einem Mi- 
nisterium) nicht ausreichend bewuBt ist, dalS 
Evaluationen im sozialwissenschaftlichen Be- 
reich gar nicht so einfach durchzufuhren sind. 
Diebeste Pravention durfte, neben sachgerech- 
ter Aufklarung von Offentlichkeit und Ent- 
scheidern, das allmahliche Entwickeln einer 
«Evaluationsprofession» mit fachlichen und 
berufsethischen Standards sein (vgl. dazu etwa 
die American Evaluation Association). Der an - 
dere «Schadens-Aspekt» von Ergebnissen ist, 
dalS im sozialwissenschaftlichen Bereich viele 
Befunde(im Gegensatzzu den klassischen Na- 
turwissenschaften) keine langfristige Gultig- 
keit haben, auch wenn sie nach alien metho- 
dischen Standards erhoben wurden. Die 
Anderungen von Rahmenbedingungen (zum 
Beispiel Fuhrungsstil im Unternehmen oderdie 
j ewei I i ge W i rtsch aftsl age, dieErwartungderOf- 
fentlichkeit an das Bildungssystem, dieVerfug- 
barkeit von Therapien im Gesundheitswesen 
u.a.m.) konnen zu stark geanderten Verhaltens- 
und Reaktionsweisen fuhren. Die Projekt- 
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ergebnisse mussen daher unter solchen Zu- 
kunftsperspektiven diskutiert werden, wobei 
man che Tech ni ken (etwa Szenario, s. Abschnitt 
4.1.3) hilfreich sein konnen. Falsch warees, als 
Evaluator die Dauerhaftigkeit der Befunde un- 
real istisch hoch einzuschatzen und sich furde- 
ren unreflektierte Aufnahme in den (meist zu- 
kunftsorientierten) EntscheidungsprozelS stark 
zu machen. 



Ergebnisunabhangige Aspekte 

Die durch die Evaluation selbst, ohne Beach- 

tung der Ergebnisse, ausgelosten moglichen 

Kosten betreffen vor allem folgende Punkte: 

• Finanzielle und materielle Aufwendungen; 
d i ese si n d rel ati v exakt kal ku I i erbar (vgl . dazu 
Abschnitt 5.1.3). 

• Zeitverluste vorTreffen der Entscheidungen, 
gegeben entails sogar das Uberdecken von 
Entscheidungsschwache bzw. Verantwor- 
tungsscheu. 

• Evtl. Verunsicherung der Entscheidungstra- 
ger, da die von ihnen zunachst eingefuhrten 
bzw. unterstutzten MalSnahmen objektiv be- 
wertet und damit Feh I entscheidungen auf- 
gedeckt werden ; im Extremfall kann diesbei 
starker Motivierung zum Vermeiden ( rel ati - 
ver) MilSerfolge zur Innovationsscheu fuh- 
ren. 

• Verzerrung der realen Verhaltnisse durch das 
Wissen, dalS eineEvaluationsstudiedurchge- 
fuhrt wird: zum Beispiel die Anpassung des 
Lei ters ei n er Wei terbi I d u n gsveran stal tu n g an 
die von ihm vermuteten, aus der Sicht der 
Evaluatoren-Auftraggeber «positiven» Krite- 
rien Oder die Einhaltung von im Projektvor- 
gegebenen, dem ublichen Verhalten derThe- 
rapeuten widersprechenden Regel n bei 
Durchfuhrung von Psych otherapien. 

Die gleichen Storeffekte konnen aber auch zu 

ergebnisunabhangigen Vorteilen fuhren, etwa 

• Zeitgewinn fur sorgfaltigeres Uberlegen und 
weitere Informationssammlung, Entlastung 
der Entscheider vor ubertriebener Hektik. 

• Erhohung der I nnovationsfreude, da die neu- 
en Verfahren sorgfaltig uberpruft werden, so 
da(S die Gefahr einer langfristig wirksamen 
Fehlentscheidung verringert wird. 



• Verbesserung der realen Verhaltnisse durch 
das Wissen um die Projektdurchfuhrung 
(etwa besondere Anstrengung der Betroffe- 
nen zum Erzielen guter Ergebnisse). 

Ob die Vor- Oder N achtei I e starker zum Tragen 
kommen, hangt davon ab, in welches Umfeld 
die Evaluationsarbeit eingebettet wird, und wie 
sie die Beteiligten/Betroffenen subjektiv akzep- 
tieren. SinnvolleEvaluationsstudien sind daher 
vor allem dann moglich, wenn diejeweilige 
Organisation einen Entwicklungsstand hat, der 
durch Rationalitat der MalSnahmengestaltung, 
Vertrauen der Beteiligten untereinander und 
Kritikfahigkeit (aktiv und passiv) gepragt ist. 



7.2 Evaluation als 
gesellschaftliches 
Gestaltungsprinzip 

Das Prinzip wissenschaftlich gestutzter Evalua- 
tion ist in keiner Weise wertfrei. Eskann einer- 
seits nur unter bestimmten gesellschaftlichen 
Verhaltnissen zum tragen kommen, beeinflulSt 
aber auch seinerseitsdieAkzeptanz politischer 
Grundkonzeptionen. Der Grund dafur liegt in 
den Erfordernissen sachgerechter Evaluations- 
projekte: 

• Explikation der Ziele 

• Akzeptanz von Fakten bezuglich der Ziel- 
erreichung 

• Einbettung der Ergebnisse in ein auf Opti- 
mierung der Zi el errei chung hin angelegtes 
En tsch ei d u n gssystem 

Diesestehen im often si chtlichen Gegensatzzu 
politischen Systemen, die 

• Ziele verschleiern wollen (zum Beispiel 
Machterhalt bestimmter Familien Oder Cli- 
quen) 

• ideologische Forderungen (wie die Gesell- 
schaft bzw. der Mensch sein sollen) uber reale 
Verhaltnissestellen 

• Entscheidungen der rationalen Kontrollen 
entziehen wollen (zum Beispiel autoritare 
Herrschaftsstrukturen, Durchsetzung real i- 
tatsresistenter Dogmen) 
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So betrachtet, ist der gesellschaftliche Nutzen 
von Evaluations, selbstohnedieVsbesssun- 
gs durch konkrete Projektergebnisse, often - 
sichtlich. Allsdingsliegen auch his potentielle 
Nachteilegenau in den gleichen Aspekts: 

• Der «Zwang» zur Zielexplikation kann fur 
neue politische Richtungen, die erst allmah- 
lich einen diffusen Stimmungsumschwung 
zu artikulieren vermogen, zu einer zu fru- 
hen, unausgseifts Festlegung fuhren bzw. 
sie - wegs des Fehlens explizits Ziele - zu 
unrechtin ds offentlichs Meinungabws- 
ten. 

• Die Uberbetonung ds reals Vshaltnisse 
kann zum Fehls von (politischs) Visions 
fuhren, die gesellschaftliche Basi sin novatio- 
ns smoglichen. 

• Rein rationale Entscheidungs konns nicht 
nureine Demotivation ds Verantwortlichen 
bedings (wem macht es schon SpaB, nur 
computsartigsach rational zu entscheids?), 
sondsn konns auch, vor allem bei unzu- 
reichend breiterZielfestlegung, gegen huma- 
nitare Aspekte vsstoGs (Bsucksichtigung 
von Sonderfalls, besondss Problemlagen, 
individuellen Flarts). 

Bsucksichtigt man beide Perspektiven, sollte 
man auch als Evaluator akzeptieren, dalS die 
rationale Ziel-M ittel-Relation zwar unvszicht- 
bar, abs nicht das einzige Gestaltungsprinzip 
dsGesellschaftsein kann. Wsds gesellschaft- 
lich relevante Evaluationsergebnisse nicht Oder 
nicht voll in politisches Flandeln umgesetzt, 
kann dies, unbeschadetdssachlichs Leistung 
im jeweiligs Projekt, auch gute Grunde ha- 
bs. 



7.3 Zukunftsperspektiven 

Bei ds 1. Auflagel987 wurdefolgendeVsmu- 
tung ubs die Zukunft an diess Stelle formu- 
liert: 

»Prognosen sind immsproblematisch, sie kon- 
ns hisnursehrsubjektiveVsmutungs wie- 
dsgebs. Eswird intsessantsein, etwa imjahr 
2000 diefolgends Aussags zu evaluiss: 

• Die Nachfrage nach sozialwissenschaftlich 
gestutzts Evaluation wird in ds Bundesrs 



publik Deutschland weits zunehms; vs- 
mutlich wsigs im Bseich «grol$s» Vorha- 
bs (etwa ganze Bildungssysteme), sondsn 
in ds Form viels kleinss, auf tshnische 
Vsbesssung abzielsds Projekte. 

• Die Bedstung formativs, fur Gestaltungs- 
vorhabs auch hsristisch wertvoller Evalua- 
tion wird relativ zu summativen Studien 
zunehmen; daraus leiten sich besondse 
Methodserfordsnisseab, dagestaltsdeAr- 
beiten nicht nach den ublichen, an Falsifika- 
tion oristierten Ansatzs durchgefuhrt ws- 
ds konns. 

• Es wird schwisig werden, die Nachfrage 
nach Evaluators zu befriedigs; dies gilt 
nicht in quantitativs H i n si cht (im Gegs- 
teil: Die Arbeitsmarktsituation fur Psycholo- 
gs und Sozialwisssschaftls wird dazu fuh- 
rs, dalS sich viele Absolventen auch mit 
Evaluation beschaftigen wollen), sondern in 
Bezug auf dieQualitat ds Intsessenten. 

Betrachtet man achtjahrespatsdiedamaligen 
Erwartungs, so haben sich diese partiell s- 
fullt. Die Nachfrage nach Evaluation hat sich 
wesentlich shoht, abs in einem Bseich, ds 
von uns damals nicht vorhergesehs wurde. 
Ds quantitativ wichtigste Nachfragezuwachs 
ststeht durch die zunehmsde Verbreitung 
ds DIN-ISO 9000ff/2, also dienss (und von 
uns vor 8 Jahren nicht antizipierten) Zerti- 
fizisungen fur das Qualitatsmanagemst von 
Disstleistungsorganisations. Auch dort, wo 
man aus guts Grunden keine offizielle Zer- 
tifizisung anstrebt, ist das Bestreben eins 
outputoristierten Stssung und Bewertung 
(vsgleiche dazu Diagramm 11/ 2 im Abschnitt 
2.1.1) wesstlich starks gewords, als wir da- 
mals vsmutet habs. Dies betrifft vor allem 
den Offstlichs Sektor, wo sich in Schuls, 
Univssitats und insbesondseKommunalvs- 
waltungs (als Folge der dort stattfindsds 
Organisationsreforms im Rahms ds nsen 
Stssungsmodelle, fur die psychologischen 
Implikationen siehe etwa Stratemann & 
Wottawa, 1995) ein sormer Bedarf an «klei- 
nen» Evaluationstudis ergibt, und zwar so- 
wohl hinsichtlich ds Entwicklung gsigneter 
und praxistauglichs Instrumsteds Ergebnis- 
ubsprufung alsauch bei ds Bsatung in Bezug 
auf die sinnvolle Nutzung ds Resultate ds 
Evaluation. Leids zeigts hier einige beson- 
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ders in der offentlichen Darstellung spektaku- 
laren Vorgange (zum Beispiel im Zusammen- 
hang mit der Evaluation von Hochschulen), 
dalS das schnelle Aufgreifen eines gesellschaft- 
lich relevanten Themas nicht immer mit me- 
thodischer Sauberkeit und sachangemessener 
Nutzung der Ergebnisse durch die Entschei- 
dungstrager verbunden ist (fur die besonderen 
method ischen Probleme von Lehr-Evaluatio- 
nen im Hochschulbereich siehe Kromrey, 1995 
fur eine systematische Erarbeitung der MeGin- 
strumente zu diesem Problem etwa Amelang, 
& Bartussek, 1996). ErwartungsgemalS gibt es 
auch kaum noch grolSe «Debatten» auf der 
Basis summativ angelegter Evaluationen fur ge- 
sellschaftspolitisch relevante Entscheidungen, 
sondern einen sehr hohen Bedarf an formati- 
ven Studien. Zu diesen beiden Punkten wurden 
unsere Erwartungen also weitgehend erfullt, 
allerdings in Bereichen und ausGrunden, die 
wir vor acht Jahren nicht entsprechend einge- 
schatzt haben. 

Ahnlichestrifftauchfurdie verm u tete An ge- 
bots-Nachfrage-Situation zu. Die Arbeitsmarkt- 
situation fur Psychologen und Sozial- 
wissenschaftler hat sich quantitativ noch 
starker verschlechtert als wir damals vermutet 
haben, und trotzdem gibt es noch immer ein 
Defizit an akzeptierten Evaluatoren, wie die 
deutlicheKonzentration der Nachfrage auf eine 
relativ kleine Gruppe von Personen zeigt. Ein 
aktuell sehr grolSes Problem ist naturlich die 
Finanzlage des Offentlichen Bereichesund im 
Gesundheitswesen, da durch sie die Beschaf- 



tigung von bzw. die Projektvergabe an Eva- 
luatoren stark gebremst wird. So zwingt zum 
Beispiel die katastrophale Haushaltssituation 
der meisten Stadte diese dazu, soweit nur 
irgend moglich fur die unverzichtbaren 
Evaluationsarbeiten auf bereits vorhandenes 
Personal, ggf. mitentsprechender Einschulung, 
zuruckzugreifen. Hier liegt ein potentiell aus- 
sichtsreiches Beschaftigungsfeld vor, wenn sich 
in mittlerer Zukunft die Finanzlage potentieller 
Arbeitgeber in diesen Berufsfeldern verbessern 
sollte. 

Im ubrigen bleibt unsere schon 1987 geau Bert 
Floffnung bestehen, dalS die Entwicklung der 
politischen Rahmenbedingungen eine offene, 
sich nach rationalen Prinzipien gestaltende 
und evaluationsgstutzt lernfahige Gesellschaft 
sichert. Innerhalb dieses Rah mens I iegt es dan n 
in der Verantwortung der Fluman- und Sozial- 
wissenschaften (und -wissenschaftlern!) selbst, 
ihren Beitrag zu einer positiven Entwicklung 
unserer Lebensbedingungen zu leisten. 

Bei Beachtung und Respektierung der Gren- 
zen der Wissenschaft und unter der Verwen- 
dungvon sozialwissenschaftlichen Grundlagen 
kann Evaluation auf vielen unterschiedlichen 
Einsatzgebieten einen wertvollen Beitrag lei- 
sten. 

Beachtet man bei der Planung und Durch- 
fuhrungvon Evaluationsprojekten diespeziel- 
len Ziele und Bewertungskriterien der Ziel- 
gruppen und Auftraggeber, wird sich die 
Evaluation als gesellschaftliches Gestaltungs- 
prinzip bewahren. 



Bei Beachtung und Respektierung der Grenzen der Wissenschaft und unter Verwendung 
von sozialwissenschaftlichen Grundlagen kann Evaluation auf vielen unterschiedlichen 
Einsatzgebieten einen wertvollen Beitrag leisten. 

Beachtet man bei der Planung und Durchfuhrung von Evaluationsprojekten die speziel- 
len Ziele und Bewertungskriterien der Zielgruppen und Auftraggeber, wird sich die Eva- 
luation als gesellschaftliches Gestaltungsprinzip bewahren. 
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